岭回归与PCA回归之间的关系


19

我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。2 λ λ →交通022λλ0

  • 为什么会这样呢?
  • 这与优化过程有关吗?天真的,我希望它等同于OLS。
  • 有人为此提供参考吗?

1
您能否更清楚地说明语句中PCA和回归如何关联?回归将因变量与自变量区分开来,而在PCA中则没有发生这种情况。那么,您将PCA应用于哪些变量?它不能仅仅是自变量,因为这与回归无关。但是,如果将其应用于所有变量,则特征向量是所有变量的线性组合。因为它涉及因变量,所以从数据集中删除任何此类组件可能意味着什么?
ub

1
联系(据我所知)是,如果您使用非常小的正则化代价,则L2正则化回归将删除特征值最小的变量。因此,在设计矩阵上执行SVD并删除特征值最小的变量等效于使用“软”正则化惩罚的回归……这是我发现的最接近的解释:sites.stat.psu。 edu /〜jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
您的参考文献似乎证明了您在评论中所说的相反:对于小,结果几乎没有变化。什么都不会删除。实际上,似乎有几张幻灯片旨在指出惩罚回归(将估计缩小到)和“ PCA回归”(其中最小的组成部分被完全删除)之间的区别,这可能是一件很糟糕的事情在某些情况下)。λL20
whuber

2
Mmm ..找到了另一个参考:statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf 在幻灯片中,“和主要成分”表示,岭回归将y投射到这些成分上且具有较大的dj *叹气*yridge
Jose G

3
你注意到了吗?最新参考资料中的14条明确回答了您的问题?
ub

Answers:


23

令为中心预测变量矩阵,并考虑其奇异值分解其中为对角矩阵的对角矩阵 。 Ñ × p X = û 小号V小号Xn×pX=USVSs一世

普通最小二乘(OLS)回归的拟合值由岭回归的拟合值由具有成分的PCA回归(PCR)的拟合值由下式给出ÿ řdÊ=Xβ- [Rdë=XXX+λ-1

ÿ^Ø大号小号=XβØ大号小号=XXX-1个Xÿ=üüÿ
ķ ÿ Pc ^- [R=XPc ^βPc ^- [R=û
ÿ^[R一世dGË=Xβ[R一世dGË=XXX+λ一世-1个Xÿ=üd一世一种G{s一世2s一世2+λ}üÿ
ķķ
ÿ^PC[R=XPC一种βPC[R=üd一世一种G{1个1个00}üÿ
其中有个后跟零。ķ

从这里我们可以看到:

  1. 如果则。ý ř d Ë = ÿλ=0ÿ^[R一世dGË=ÿ^Ø大号小号

  2. 如果则奇异值越大,则在岭回归中将受到的惩罚越少。小奇异值(或更小)受的惩罚最大。š 小号2 λ>0s一世s一世2λ

  3. 相反,在PCA回归中,较大的奇异值保持完整,而较小的奇异值(在确定的)被完全删除。前个对应于,其余对应于。λ = 0 ķ λķλ=0ķλ=

  4. 这意味着可以将岭回归视为PCR的“平滑版本”。

    (这种直觉是有用的,但并不总是成立;例如,如果所有近似相等,则岭回归将仅能近似相等地惩罚所有主要成分,并且可能与PCR有很大不同)。s一世X

  5. Ridge回归在实践中往往表现更好(例如,具有更高的交叉验证性能)。

  6. 现在具体回答您的问题:如果,则。我看不出它如何对应于删除最小的。我认为这是错误的。λ0ÿ^[R一世dGËÿ^Ø大号小号s一世

一个很好的参考是《统计学习的要素》,第3.4.1节“ Ridge回归”。


另请参见以下主题:回归中的岭正则化解释,尤其是@BrianBorchers的答案。


s一世-β大号Ë一种sŤ-sqü一种[RËs

ķ
ü诊断1个1个1个21个ķ00üŤÿ

这很漂亮。
xxx222 '17

6

统计学习的元素对此进行了大量讨论。

我解释这种联系和逻辑的方式如下:

  • PCA是特征变量的线性组合,试图最大程度地利用新空间解释数据的方差。
  • 遭受多重共线性(或预测变量多于数据行)的数据会导致不具有完整秩的协方差矩阵。
  • 使用此协方差矩阵,我们无法求逆来确定最小二乘解。这导致最小二乘系数的数值逼近达到无穷大。
  • Ridge回归在协方差矩阵上引入了惩罚Lambda,以允许矩阵求逆和LS系数的收敛。

PCA的连接是Ridge回归正在计算要素的线性组合,以确定发生多重共线性的位置。具有最小方差(因此PCA中较小的奇异值和较小的特征值)的特征的线性组合(原理成分分析)受到的处罚最为困难。

这样想吧;对于具有最小方差的特征的线性组合,我们发现了最相似的特征,因此导致了多重共线性。由于Ridge不会缩减特征集,无论该线性组合描述的是哪个方向,与该方向相对应的原始特征受到的惩罚最大。


2

Xβ=ÿ
X
X=ü小号VŤ
小号=诊断s一世

β

βØ大号小号=V小号-1个üŤ
s一世

小号-1个β

小号-1个=诊断s一世s一世2+αβ= V小号-1个üŤ

小号-1个

小号PCA-1个=诊断1个s一世θs一世-γβPCA= V小号PCA-1个üŤ
θγ

因此,这两种方法都会削弱与小值相对应的子空间的影响。PCA很难做到这一点,而脊线则更平滑。

小号myReg-1个=诊断[Rs一世
[RXX0[RXX-1个X

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.