我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0
- 为什么会这样呢?
- 这与优化过程有关吗?天真的,我希望它等同于OLS。
- 有人为此提供参考吗?
我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0
Answers:
令为中心预测变量矩阵,并考虑其奇异值分解其中为对角矩阵的对角矩阵 。 Ñ × p X = û 小号V ⊤ 小号
普通最小二乘(OLS)回归的拟合值由岭回归的拟合值由具有成分的PCA回归(PCR)的拟合值由下式给出ÿ ř我d克Ê=Xβ- [R我d克ë=X(X⊤X+λ我)-1
从这里我们可以看到:
如果则。ý ř 我d 克Ë = ÿ
如果则奇异值越大,则在岭回归中将受到的惩罚越少。小奇异值(或更小)受的惩罚最大。š 我小号2 我
相反,在PCA回归中,较大的奇异值保持完整,而较小的奇异值(在确定的)被完全删除。前个对应于,其余对应于。λ = 0 ķ λ
这意味着可以将岭回归视为PCR的“平滑版本”。
(这种直觉是有用的,但并不总是成立;例如,如果所有近似相等,则岭回归将仅能近似相等地惩罚所有主要成分,并且可能与PCR有很大不同)。
Ridge回归在实践中往往表现更好(例如,具有更高的交叉验证性能)。
现在具体回答您的问题:如果,则。我看不出它如何对应于删除最小的。我认为这是错误的。
一个很好的参考是《统计学习的要素》,第3.4.1节“ Ridge回归”。
另请参见以下主题:回归中的岭正则化解释,尤其是@BrianBorchers的答案。
统计学习的元素对此进行了大量讨论。
我解释这种联系和逻辑的方式如下:
PCA的连接是Ridge回归正在计算要素的线性组合,以确定发生多重共线性的位置。具有最小方差(因此PCA中较小的奇异值和较小的特征值)的特征的线性组合(原理成分分析)受到的处罚最为困难。
这样想吧;对于具有最小方差的特征的线性组合,我们发现了最相似的特征,因此导致了多重共线性。由于Ridge不会缩减特征集,无论该线性组合描述的是哪个方向,与该方向相对应的原始特征受到的惩罚最大。