通过“频谱分解”的岭回归使用收缩系数的证明


20

我已经了解了岭回归如何将系数在几何上缩小为零。此外,我知道如何在特殊的“正交案例”中证明这一点,但是我对通过“频谱分解”在一般案例中的工作方式感到困惑。


4
您已经说过感到困惑,但是您的问题是什么?
ub

Answers:


30

这个问题似乎是在要求人们证明,岭回归使用频谱分解将系数估计值缩小到零。频谱分解可以理解为奇异值分解(SVD)的简单结果。因此,本文以SVD开头。它用简单的术语对其进行解释,然后在重要的应用程序中对其进行说明。然后提供所要求的(代数)演示。(当然,代数与几何演示相同;只是用另一种语言表达)。

这个答案的原始来源可以在我的回归课程笔记中找到。此版本纠正了一些小错误。


什么是SVD

任何矩阵,用,可以写成,其中n×pp Ñ X = û d V 'Xpn

X=UDV
  1. Ñ × pU是矩阵。n×p

    • 的列的长度为。1U1
    • 的列相互正交。U
    • 他们被称为主成分的。X
  2. p × pV是一个矩阵。p×p

    • 的列的长度为。1V1
    • 的列相互正交。V
    • 这使得一个旋转的。- [R pVRp
  3. p × pD对角 矩阵。p×p

    • 对角元素不是负数。这些都是奇异值的。 Xd11,d22,,dppX
    • 如果我们愿意,我们可以按从大到小的顺序排列它们。

准则(1)和(2)断言和都是正交矩阵。它们可以根据条件进行巧妙地总结VUV

UU=1p, VV=1p.

结果(代表旋转),。这将在下面的Ridge回归推导中使用。V V ' = 1 pVVV=1p

它为我们做什么

它可以简化公式。 这在代数和概念上都有效。这里有些例子。

正规方程

考虑回归,其中,照常,是独立的,并且根据具有零期望和有限方差的定律均匀分布。通过正则方程的最小二乘解为 应用SVD并简化由此产生的代数混乱(这很容易)提供了很好的见解:ε σ 2 β = X ' X - 1 X ' ý y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

此与之间的唯一区别是,使用了元素的倒数!换句话说,“等式”通过“反转”来解决:该伪反转取消了旋转和(仅通过转置)并取消了乘法(用表示)。在每个主要方向上。 d Ŷ = X β X ü V ' dX=VDUDy=XβXUVD

为了将来参考,请注意“旋转”估计是“旋转”响应线性组合。系数是的(正)对角元素的倒数,等于。 β ü ' ý d d - 1 Vβ^UyDdii1

系数估计的协方差

回想一下,估计的协方差是 使用SVD,它变为 换句话说,协方差的作用类似于正交变量的协方差,每个正交变量的方差为,并已在旋转。σ 2V d 2 V ' - 1 = σ 2 V d - 2 V 'k d 2 i i R k

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2Rk

帽子矩阵

帽子矩阵是通过前面的结果,我们可以将其重写为简单!H = U D V 'V D 1 U '= U U '

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

本征分析(光谱分解)

由于和立即 X X ' = û d V ' V d Ù ' = û d 2 ù '

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • 和的特征值是奇异值的平方。X X XXXX
  • 的列是的特征向量。X ' XVXX
  • 的列是一些特征向量。(存在其他特征向量,但对应于零特征值。)X X UXX

SVD可以诊断和解决共线性问题。

近似回归器

当您将最小的奇异值替换为零时,只需稍微更改乘积。但是现在,零消除了的相应列,从而有效地减少了变量的数量。 假设那些消除的列与几乎没有关联,则可以有效地用作变量归约技术。 ù ÿUDVUy

岭回归

让的列以及本身标准化。(这意味着我们不再需要的常量列。)对于,岭估计为 ÿ X λ > 0 β řXyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

此之间的区别是被替换。β^D1=D2D(D2+λ)1D实际上,这会将原始数乘以分数。因为(当)分母明显大于分子,因此参数估计“缩小为零”。D2/(D2+λ)λ>0


必须从前面提到的某种微妙的意义上理解这个结果:旋转后的估计值仍然是向量线性组合,但是每个系数(过去是已乘以的因子。这样,旋转系数必须缩小,但是当足够小时,某些本身实际上可能会增大大小。Vβ^RUydii1dii2/(dii2+λ)λβ^R

为了避免分散注意力,在此讨论中排除了多个零奇异值之一的情况。在这种情况下,如果我们通常将“设为零,dii1那么一切仍然有效。这是使用广义逆来求解正态方程时发生的情况。


1
@Glen_b很好:我需要明确说明我正在考虑的比例!我会解决的。
ub

1
(1)等式断言,的每一列与其自身的点积为,因此每个长度(根据定义)为。(2)源自观察到是旋转矩阵,因为这暗示也是旋转矩阵。因此,。插入会得到。UU=1pU1VV'=1pV1=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
ub

1
@Vimal谢谢您的好建议。我现在在“正态方程”部分中进行了介绍,其中介绍了回归模型。
ub

1
当是对称的时,根据定义, 左,右两侧立即比较显示了一个实对称矩阵的对角化是SVD的一种特殊情况,并且还表明,在对称矩阵,的SVD。如果是非简并的,实际上就是这种情况,但是要证明它不是完全基本的,因此我不再赘述。V D U ' = X ' = X = U D V 'U = V XX
VDU=X=X=UDV.
U=VX
whuber

1
@ wh,哦,是这样吗?在拟合值我们将使用系数估计值,只要将它们缩小到零,拟合值就会发生相同的变化。y^
jeza
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.