什么是“降秩回归”?


22

我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。

其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。

有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?


1
在收缩和变量选择的背景下,似乎提供了利用多结果模型的回归方法。没有一个Y结果,但是有多个Y结果。假设您有5个Y结果,那么本节将讨论汇总方法估计的方法,而不仅仅是构建5个单独的模型。
spdrnl

1
我的几分钱:假设低秩矩阵会使事情变得简单。幸运的是,该假设适用于许多现实世界的数据源。
弗拉迪斯拉夫(Vladislavs Dovgalecs)2015年

1
看起来这个假设是关于解决方案的限制。本文介绍了为什么statprob.com/encyclopedia/...
Vladislavs Dovgalecs

Answers:


42

1.什么是降秩回归(RRR)?

考虑多元多元线性回归,即具有独立变量和因变量的回归。令和为中心预测变量()和响应()数据集。然后可以将通常的普通最小二乘(OLS)回归公式化为最小化以下成本函数:q X Y n × p n × qpqXÿñ×pñ×q

大号=ÿ-X2

其中是回归权重的矩阵。它的解决方案由很容易看到这等效于执行单独的OLS回归,每个因变量一个。 p × q ø 大号小号 = XX - 1 Xÿqp×q

^Ø大号小号=XX-1个Xÿ
q

降秩回归在上引入了秩约束,即应该用最小化,其中是的最大允许秩。大号[R [R 大号[R[R

2.如何获得RRR解决方案?

事实证明,RRR可以转换为特征向量问题。实际上,利用OLS本质上是的列空间上的正交投影这一事实,我们可以将重写为第一项不依赖于,第二项可以通过拟合值的SVD / PCA最小化。大号大号= ý - X ö 大号小号2 + X ö 大号小号 - X 2ÿ = X ö 大号小号X大号

大号=ÿ-X^Ø大号小号2+X^Ø大号小号-X2
ÿ^=X^Ø大号小号

具体来说,如果是前主轴,则 [R ý - [R [R [R = ö 大号小号ü ř Ú řü[R[Rÿ^

^[R[R[R=^Ø大号小号ü[Rü[R

3.存款准备金有什么好处?

使用RRR可能有两个原因。

首先,可以将其用于正则化目的。与ridge回归(RR),套索等类似,RRR在上引入了一些“收缩”惩罚。最佳等级可以通过交叉验证找到。以我的经验,RRR轻易胜过OLS,但往往会损失给RR。但是,RRR + RR的性能(略)优于单独的RR。 [RB[R

其次,可以将其用作降维/数据探索方法。如果我们有一堆预测变量和一堆因变量,那么RRR将在预测变量空间中构造“潜在因子”,从而最好地解释DV的方差。然后,人们可以尝试解释这些潜在因素,对其进行绘制等。据我所知,这是在生态学中常规完成的,RRR被称为冗余分析,并且是它们所谓的排序方法的一个示例(请参阅此处的@GavinSimpson的答案))。

4.与其他降维方法的关系

RRR与其他降维方法(例如CCA和PLS)紧密相关。我对部分最小二乘,缩减秩回归和主成分回归之间的联系有一点涉及

如果和是中心预测变量()和响应()数据集,并且如果我们寻找第一对轴,则为和对,则这些方法最大化以下数量:XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

有关更多详细信息,请参见此处。

有关如何将大多数常见的线性多元方法(例如PCA,CCA,LDA,但不包括PLS!)视为RRR的详细处理方法,请参见Torre,2009年,《最小二乘分析框架》

5.为什么在Hastie等人的本节中?如此混乱?

Hastie等。使用“ RRR”一词指的是稍有不同的东西!代替使用损失函数它们使用如公式3.68所示。这会在损失函数中引入白化因子,实质上是白化因变量。如果您查看上面CCA和RRR之间的比较,您会注意到,如果被加白,则差异消失。那么Hastie等。称RRR实际上是变相的CCA(确实,请参见其3.69)。

L=YXB2,
L=(YXB)(YY)1/22,
YY

在本节中没有适当地解释这些内容,因此造成了混乱。


请参阅我对“ 友好教程”的回答或降阶回归的简介,以进一步阅读。


这是一个非常好的书面详细说明。谢谢你,我很感激。
cgo

@amoeba很棒的答案。我可以建议几次修饰以使其更易于使用吗?在第一个条目的最后一行上,您可以说出是多少吗,例如,如果是则是模型矩阵的秩。其次,在第二项下的定义方程式上,引入,它是总体系数,因此是未知参数。您能详细说明一下吗?rB
安东尼帕雷拉达

1
(1)是多元回归,@ Antoni,即是矩阵,也是矩阵,而不是向量。(2)这里,只是损失函数的参数。我们的目标是要找到最小化。YBBLBL
变形虫说莫妮卡(Reonica)

1
关于在RRRR中选择最佳等级,请注意,自由度可以根据显式计算: ,其中是输入维,是输出维。然后可以使用广义交叉验证(GCV)来选择最佳的:最小化。rrdf^(r)=pq(pr)(qr)+"a small correction term"pqrYY^RRRR(r)Fro2(nqdf^(r))2
dohmatob


3

降秩回归是一个模型,其中没有单个Y结果,但是有多个Y结果。当然,您可以为每个响应拟合单独的多元线性回归,但是当预测变量和每个响应之间的功能关系明显相似时,这似乎效率很低。在我认为这很明显的情况下,请参阅此kaggle练习。

https://www.kaggle.com/c/bike-sharing-demand/data

有几种解决该问题的相关技术,这些技术从X变量中构建“因子”或“组件”,然后将其用于预测Y。SAS的此文档页面帮助我清除了差异。降低的等级回归似乎与提取最大程度考虑响应之间差异的成分有关,与偏最小二乘相反,偏最小二乘提取了最大程度考虑响应与预测变量之间差异的成分。

https://support.sas.com/documentation/cdl/zh-CN/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1。没错 我在stats.stackexchange.com/questions/206587的答复中讨论了此SAS文档页面,尤其是它们的图形。
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.