这个问题似乎是在要求人们证明,岭回归使用频谱分解将系数估计值缩小到零。频谱分解可以理解为奇异值分解(SVD)的简单结果。因此,本文以SVD开头。它用简单的术语对其进行解释,然后在重要的应用程序中对其进行说明。然后提供所要求的(代数)演示。(当然,代数与几何演示相同;只是用另一种语言表达)。
这个答案的原始来源可以在我的回归课程笔记中找到。此版本纠正了一些小错误。
什么是SVD
任何矩阵,用,可以写成,其中Ñ × pp ≤ Ñ X = û d V 'Xp ≤ ñ
X= Ud V′
Ñ × pü是矩阵。Ñ × p
- 的列的长度为。1ü1个
- 的列相互正交。ü
- 他们被称为主成分的。X
p × pV是一个矩阵。p × p
- 的列的长度为。1V1个
- 的列相互正交。V
- 这使得一个旋转的。- [R pV[Rp
p × pd是对角 矩阵。p × p
- 对角元素不是负数。这些都是奇异值的。 Xd11,d22,… ,dp pX
- 如果我们愿意,我们可以按从大到小的顺序排列它们。
准则(1)和(2)断言和都是正交矩阵。它们可以根据条件进行巧妙地总结VüV
ü′ü= 1p,V ′V= 1p。
结果(代表旋转),。这将在下面的Ridge回归推导中使用。V V ' = 1 pVVV′= 1p
它为我们做什么
它可以简化公式。 这在代数和概念上都有效。这里有些例子。
正规方程
考虑回归,其中,照常,是独立的,并且根据具有零期望和有限方差的定律均匀分布。通过正则方程的最小二乘解为 应用SVD并简化由此产生的代数混乱(这很容易)提供了很好的见解:ε σ 2 β = (X ' X )- 1 X ' ý 。ÿ= Xβ+ εεσ2
β^= (X′X)− 1X′ÿ。
(X′X)− 1X′= ((Ûd V′)′(Ud V′))− 1(Ud V′)′= (Vd ü′üd V′)− 1(五d ü′)= Vd− 2V′Vd ü′= Vd− 1ü′。
此与之间的唯一区别是,使用了元素的倒数!换句话说,“等式”通过“反转”来解决:该伪反转取消了旋转和(仅通过转置)并取消了乘法(用表示)。在每个主要方向上。 d Ŷ = X β X ü V ' dX′= Vd ü′dÿ= XβXüV′d
为了将来参考,请注意“旋转”估计是“旋转”响应线性组合。系数是的(正)对角元素的倒数,等于。 β ü ' ý d d - 1 我我V′β^ü′ÿdd− 1我我
系数估计的协方差
回想一下,估计的协方差是 使用SVD,它变为 换句话说,协方差的作用类似于正交变量的协方差,每个正交变量的方差为,并已在旋转。σ 2(V d 2 V ' )- 1 = σ 2 V d - 2 V '。k d 2 i i R k
冠状病毒(β^)= σ2(X′X)− 1。
σ2(五d2V′)− 1= σ2Vd− 2V′。
ķ d2我我[Rķ
帽子矩阵
帽子矩阵是通过前面的结果,我们可以将其重写为简单!H = (U D V ')(V D − 1 U ')= U U '。
H= X(X′X)− 1X′。
H= (Ud V′)(Vd− 1ü′)= Uü′。
本征分析(光谱分解)
由于和立即 X X ' = û d V ' V d Ù ' = û d 2 ù ',
X′X= Vd ü′üd V′= Vd2V′
XX′= Ud V′Vd ü′= Ud2ü′,
- 和的特征值是奇异值的平方。X X “X′XXX′
- 的列是的特征向量。X ' XVX′X
- 的列是一些特征向量。(存在其他特征向量,但对应于零特征值。)X X ′üXX′
SVD可以诊断和解决共线性问题。
近似回归器
当您将最小的奇异值替换为零时,只需稍微更改乘积。但是现在,零消除了的相应列,从而有效地减少了变量的数量。 假设那些消除的列与几乎没有关联,则可以有效地用作变量归约技术。 ù ÿüd V′üÿ
岭回归
让的列以及本身标准化。(这意味着我们不再需要的常量列。)对于,岭估计为 ÿ X λ > 0 β řXÿXλ > 0
β^[R= (X′X+ λ )− 1X′ÿ= (Vd2V′+ λ1个p)− 1Vd ü′ÿ= (Vd2V′+ λ VV′)− 1Vd ü′ÿ= (V(D2+ λ )V′)− 1Vd ü′ÿ= V(D2+ λ )− 1V′Vd ü′ÿ= V(D2+ λ )− 1d ü′ÿ。
此之间的区别是被替换。β^d− 1= D− 2d(D2+ λ )− 1d实际上,这会将原始数乘以分数。因为(当)分母明显大于分子,因此参数估计“缩小为零”。d2/( D2+ λ )λ > 0
必须从前面提到的某种微妙的意义上理解这个结果:旋转后的估计值仍然是向量线性组合,但是每个系数(过去是已乘以的因子。这样,旋转系数必须缩小,但是当足够小时,某些本身实际上可能会增大大小。V′β^[Rü′ÿd− 1我我d2我我/( d2我我+ λ )λβ^[R
为了避免分散注意力,在此讨论中排除了多个零奇异值之一的情况。在这种情况下,如果我们通常将“设为零,d− 1我我那么一切仍然有效。这是使用广义逆来求解正态方程时发生的情况。