我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。
其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。
有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?
我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。
其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。
有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?
Answers:
考虑多元多元线性回归,即具有独立变量和因变量的回归。令和为中心预测变量()和响应()数据集。然后可以将通常的普通最小二乘(OLS)回归公式化为最小化以下成本函数:q X Y n × p n × q
其中是回归权重的矩阵。它的解决方案由很容易看到这等效于执行单独的OLS回归,每个因变量一个。 p × q 乙 ø 大号小号 = (X ⊤ X )- 1 X ⊤ ÿ,q
降秩回归在上引入了秩约束,即应该用最小化,其中是的最大允许秩。大号秩(乙)≤ [R [R 乙
事实证明,RRR可以转换为特征向量问题。实际上,利用OLS本质上是的列空间上的正交投影这一事实,我们可以将重写为第一项不依赖于,第二项可以通过拟合值的SVD / PCA最小化。大号大号= ‖ ý - X 乙 ö 大号小号 ‖ 2 + ‖ X 乙 ö 大号小号 - X 乙‖ 2。乙ÿ = X 乙 ö 大号小号
具体来说,如果是前主轴,则 [R ý 乙 - [R [R [R =乙 ö 大号小号ü ř Ú ⊤ ř。
使用RRR可能有两个原因。
首先,可以将其用于正则化目的。与ridge回归(RR),套索等类似,RRR在上引入了一些“收缩”惩罚。最佳等级可以通过交叉验证找到。以我的经验,RRR轻易胜过OLS,但往往会损失给RR。但是,RRR + RR的性能(略)优于单独的RR。 [R
其次,可以将其用作降维/数据探索方法。如果我们有一堆预测变量和一堆因变量,那么RRR将在预测变量空间中构造“潜在因子”,从而最好地解释DV的方差。然后,人们可以尝试解释这些潜在因素,对其进行绘制等。据我所知,这是在生态学中常规完成的,RRR被称为冗余分析,并且是它们所谓的排序方法的一个示例(请参阅此处的@GavinSimpson的答案))。
RRR与其他降维方法(例如CCA和PLS)紧密相关。我对部分最小二乘,缩减秩回归和主成分回归之间的联系有一点涉及。
如果和是中心预测变量()和响应()数据集,并且如果我们寻找第一对轴,则为和对,则这些方法最大化以下数量:
有关更多详细信息,请参见此处。
有关如何将大多数常见的线性多元方法(例如PCA,CCA,LDA,但不包括PLS!)视为RRR的详细处理方法,请参见Torre,2009年,《最小二乘分析框架》。
Hastie等。使用“ RRR”一词指的是稍有不同的东西!代替使用损失函数它们使用如公式3.68所示。这会在损失函数中引入白化因子,实质上是白化因变量。如果您查看上面CCA和RRR之间的比较,您会注意到,如果被加白,则差异消失。那么Hastie等。称RRR实际上是变相的CCA(确实,请参见其3.69)。
在本节中没有适当地解释这些内容,因此造成了混乱。
降秩回归是一个模型,其中没有单个Y结果,但是有多个Y结果。当然,您可以为每个响应拟合单独的多元线性回归,但是当预测变量和每个响应之间的功能关系明显相似时,这似乎效率很低。在我认为这很明显的情况下,请参阅此kaggle练习。
https://www.kaggle.com/c/bike-sharing-demand/data
有几种解决该问题的相关技术,这些技术从X变量中构建“因子”或“组件”,然后将其用于预测Y。SAS的此文档页面帮助我清除了差异。降低的等级回归似乎与提取最大程度考虑响应之间差异的成分有关,与偏最小二乘相反,偏最小二乘提取了最大程度考虑响应与预测变量之间差异的成分。