为什么通过向对角线添加一个常数来使岭估计比OLS更好?


59

据我所知,岭回归估计是β最小化上的大小的平方残余总和和惩罚β

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

但是,我不完全理解与不同的事实的重要性,因为它仅向的对角线添加一个小常数。确实,β OLS X ' XβridgeβOLSXX

βOLS=(XX)1Xy
  1. 我的书中提到,这使估算值在数值上更稳定-为什么?

  2. 数值稳定性与向岭估计值的趋近于0的收缩有关还是仅仅是巧合?

Answers:


76

在无罚回归中,您通常可以在参数空间中获得一个ridge *,其中沿最小二乘准则,沿着该岭的许多不同值都一样好或几乎一样好。

*(至少,这是似然函数中的一个脊线- 在RSS标准中,它们实际上是$的谷值,但我将继续将其称为“脊线”,因为这似乎很传统-甚至就像Alexis指出的那样在评论中,我可以称呼它为thalweg,是山谷的山脊对应物)

在参数空间中最小二乘准则中存在一个脊的情况下,当参数远离原点时,通过向上推该准则,通过脊回归得到的惩罚将消除那些脊:

在此处输入图片说明
[ 清晰的图像 ]

在第一个图中,参数值(沿山脊)的较大变化使RSS准则的变化很小。这可能会导致数值不稳定;它对微小的变化非常敏感(例如,数据值的微小变化,甚至是截断或舍入误差)。参数估计几乎完美相关。您可能会得到非常大的参数估计。

相比之下,通过提升参数远离0时岭回归最小化的事物(通过添加罚分),条件的微小变化(例如小小的舍入或截断误差)不会在结果中产生巨大的变化估计。惩罚项导致向0缩小(导致一些偏差)。少量的偏差可以大大改善方差(通过消除该峰值)。L2

估计的不确定性降低了(标准误差与二阶导数成反比,二阶导数因惩罚而变大)。

参数估计的相关性降低。如果小参数的RSS不会差很多,那么您现在将不会获得非常大的参数估计。


4
这个答案确实有助于我理解收缩率和数值稳定性。但是,我仍然不清楚“向添加一个小的常量”如何实现这两件事。XX
海森堡2014年

4
向对角线*添加常数与向RSS 添加以为中心的圆形抛物面(结果如上所示-它“拉”离零-消除山脊)相同。 *(不一定小,取决于您的外观和添加的数量)0
Glen_b 2014年

6
Glen_b您要寻找的英语(沿着山谷的路径/曲线)的“ ridge”的反义词是thalweg。我大约在两周前才了解到这一点,并且很喜欢。它甚至听起来都不像是英文单词!:D
亚历克西斯(Alexis)2014年

5
@Alexis毫无疑问,这将是一个方便的词,因此,谢谢您。它听起来可能不是英语,因为它是德语单词(实际上,泰尔语与“ 尼安德特人 ” =“尼安德山谷”和weg =“ way”中的“ 泰尔 ”相同)。[[是的,我想要“山脊”不是因为我想不出该叫什么,而是因为人们似乎是在看可能性还是RSS都把它称为山脊,而我在解释我的追随欲望。约定,即使看起来很奇怪。如果我不遵循惯用的常规做法,那么Thalweg将是一个正确选择的绝佳选择。]
Glen_b 2014年

4
确切地说,当似然出现山脊时,X变得接近于不具有完整秩的矩阵(因此X'X变得几乎是奇异的)。脊是列之间几乎线性关系的直接结果,这使 s(几乎)线性相关。Xβ
Glen_b 2014年

28

在Glen_b的插图上+1,在Ridge估算器上的统计评论。我只想在Ridge回归上添加一个纯数学(线性代数)的pov,可以回答OP问题1)和2)。

首先请注意,是一个 ×对称正半定矩阵是样本协方差矩阵的倍。因此它具有本征分解XXp×pn

XX=VDV,D=[d1dp],di0

现在,由于矩阵求逆对应于特征值的求逆,因此OLS估计器需要(请注意)。显然,这仅在所有特征值严格大于零(。对于这是不可能的。对于这通常是正确的-这是我们通常关心的多重共线性(XX)1=VD1VV=V1di>0pnnp

作为统计学家,我们还想知道数据微小扰动如何改变估计值。很明显,如果非常小,则任何的微小变化都会导致巨大变化。Xdi1/didi

因此,Ridge回归所做的是,随着

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
现在具有特征值。这就是为什么选择正惩罚参数会使矩阵可逆的原因-即使在情况下也是如此。对于Ridge回归,数据的微小变化不再对矩阵求逆产生极其不稳定的影响。di+λλ0pnX

数值稳定性与收缩到零有关,因为它们都是向特征值添加正常数的结果:由于的微小扰动不会使反函数变化太大,因此数值稳定。因为现在项乘以,比具有反特征值的OLS解更接近零,所以它缩小到接近。0 V - 1 X ' Ý 1 /ð + λ 1 / ðX0V1Xy1/(di+λ)1/d


2
这个答案令人满意地回答了我的问题的代数部分!与Glen_b一起回答,可以对问题进行完整的解释。
海森堡

17

@Glen_b的演示很棒。我要补充一点,除了问题的确切原因和关于二次惩罚回归如何工作的描述外,最重要的是,惩罚具有将截距以外的系数缩小为零的净效应。当样本量相对于参数估计数而言不是很大时,这为大多数回归分析中固有的过拟合问题提供了直接解决方案。对于非拦截,几乎所有的零惩罚都将提高未惩罚模型的预测准确性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.