为什么脊回归不像套索那样将某些系数缩小为零?


16

在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?



1
好的,至少在这个问题上,黑体的方差部分不是重复的;所以也许可以对这个问题进行编辑以专注于此。
Juho Kokkala 2015年


@fcop我读过这本书,但我不太理解数学
user10024395

但是要了解图片,您不需要数学吗?

Answers:


26

这是关于方差

OLS提供了所谓的最佳线性无偏估计器 (BLUE)。这意味着,如果采用任何其他无偏估计量,则它的方差肯定会大于OLS解。那么,为什么我们在地球上除此以外还应该考虑其他因素?

现在使用正则化的技巧(例如套索或山脊)是依次添加一些偏差以尝试减少方差。因为当您估算的预测误差,它是一个三件事情组合

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
最后一部分是无法避免的错误,因此我们无法对此进行控制。使用OLS解决方案,偏差项为零。但是第二个词可能很大。(如果我们要好的预测),增加一些偏见并希望减少差异可能是一个好主意。

那么,这是什么?它是模型中参数估算值中引入的方差。线性模型具有以下形式 Ŷ = X β + ε Var[f^(x))] 为了获得OLS溶液我们解决最小化问题 ARG 分钟β | | Ÿ - X β | | 2 这提供了溶液 β OLS = X Ť X - 1 X Ť ý 为岭回归的最小化问题是相似的: ARG 分钟β | | Ÿ - X β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
现在溶液变成 β = X Ť X + λ - 1 X Ť ý 因此,我们添加此 λ 对角线上的矩阵,我们反转(称为脊)。这对矩阵 X T X的影响是它“”矩阵的行列式远离零。因此,当您对其进行反转时,不会获得巨大的特征值。但这导致另一个有趣的事实,即参数估计值的方差变小。
精氨酸β||ÿ-Xβ||2+λ||β||2λ>0
β^=XŤX+λ一世-1个XŤÿ
λ一世XŤX

我不确定是否可以提供一个更明确的答案。这一切归结为模型中参数的协方差矩阵和该协方差矩阵中值的大小。

我以岭回归为例,因为它更容易处理。套索要困难得多,并且仍在对该主题进行积极的研究

这些幻灯片提供了更多信息,该博客也提供了一些相关信息。

编辑:我的意思是,通过添加岭,行列式从零“ ”出来?

XŤX

tXŤX-Ť一世=0
Ť
tXŤX+λ一世-Ť一世=0
tXŤX-Ť-λ一世=0
Ť-λŤ一世Ť一世+λλ

以下是一些R代码来说明这一点:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

结果如下:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

因此,所有特征值正好上移了3。

您也可以使用Gershgorin圆定理来证明这一点。包含特征值的圆的中心是对角线元素。您总是可以在对角线元素上添加“足够”以使所有圆都在正实半平面中。该结果更通用,不需要此结果。


您能解释一下它如何(从数学上)拉动行列式远离零吗?谢谢
user10024395 15-10-12

@ user2675516我已经编辑了答案。
Gumeo

“这意味着,如果采用任何其他无偏估计量,则注定会有比OLS解更大的方差”。您是说比OLS偏向更高?我以为OLS的偏见最少,因此其他任何偏见都会更高。请澄清
GeorgeOfTheRF

@ML_Pro OLS的偏差为零,在所有无偏差的估计量中,其方差最小。这是一个定理。因此,如果您选择其他任何东西,方差都会增加。但是,如果您进行正则化,则会引入偏差。
Gumeo

谢谢!您的回应让我感到好奇。您能回答我提出的这个新问题吗?stats.stackexchange.com/questions/294926/…–
GeorgeOfTheRF

2

岭回归

L2 =(y-xβ)^ 2 + λ∑βi ^ 2

现在将仅针对一个β求解该方程式,而您可以将其概括为:

因此,(y-xβ)^ 2 +λβ^ 2这是我们对一个β的方程。

我们的目标是使上述方程式最小化,以便能够做到,将其等于零并采用导数wrtβ

Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ^ 2 = 0 -------使用(ab)^ 2展开

偏导数wrt

-2xy + 2x ^2β+2βλ= 0

2β(x ^ 2 +λ)= 2xy

β= 2xy / 2(x ^ 2 +λ)

最后

β= xy /(x ^ 2 +λ)

如果您观察到分母,它将永远不会为零,因为我们要添加一些λ值(即超参数)。因此,β的值将尽可能低,但不会变为零。

LASSO回归:

L1 =(y-xβ)^ 2 + λ∑ |β|

现在将仅针对一个β解决此方程,而您可以将其推广为更多β:

因此,(y-xβ)^ 2 +λβ这是我们对一个β的方程,这里我考虑了β的+ ve值。

我们的目标是使上述方程式最小化,以便能够做到,将其等于零并采用导数wrtβ

Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ= 0 -------使用(ab)^ 2展开

偏导数wrt

-2xy + 2x ^2β+λ= 0

2x ^2β+λ= 2xy

2x ^2β=2xy-λ

最后

β=(2xy-λ)/(2X ^ 2)

如果观察分子,它将变为零,因为我们要减去一些λ值(即超参数)。因此,β的值将设置为零。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.