在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?
在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?
Answers:
这是关于方差
OLS提供了所谓的最佳线性无偏估计器 (BLUE)。这意味着,如果采用任何其他无偏估计量,则它的方差肯定会大于OLS解。那么,为什么我们在地球上除此以外还应该考虑其他因素?
现在使用正则化的技巧(例如套索或山脊)是依次添加一些偏差以尝试减少方差。因为当您估算的预测误差,它是一个三件事情组合:
那么,这是什么?它是模型中参数估算值中引入的方差。线性模型具有以下形式 Ŷ = X β + ε , 为了获得OLS溶液我们解决最小化问题 ARG 分钟β | | Ÿ - X β | | 2 这提供了溶液 β OLS = (X Ť X )- 1 X Ť ý 为岭回归的最小化问题是相似的: ARG 分钟β | | Ÿ - X β | |
我不确定是否可以提供一个更明确的答案。这一切归结为模型中参数的协方差矩阵和该协方差矩阵中值的大小。
我以岭回归为例,因为它更容易处理。套索要困难得多,并且仍在对该主题进行积极的研究。
编辑:我的意思是,通过添加岭,行列式从零“ 拉 ”出来?
以下是一些R代码来说明这一点:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
结果如下:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
因此,所有特征值正好上移了3。
您也可以使用Gershgorin圆定理来证明这一点。包含特征值的圆的中心是对角线元素。您总是可以在对角线元素上添加“足够”以使所有圆都在正实半平面中。该结果更通用,不需要此结果。
岭回归
L2 =(y-xβ)^ 2 + λ∑βi ^ 2
现在将仅针对一个β求解该方程式,而您可以将其概括为:
因此,(y-xβ)^ 2 +λβ^ 2这是我们对一个β的方程。
我们的目标是使上述方程式最小化,以便能够做到,将其等于零并采用导数wrtβ
Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ^ 2 = 0 -------使用(ab)^ 2展开
偏导数wrt
-2xy + 2x ^2β+2βλ= 0
2β(x ^ 2 +λ)= 2xy
β= 2xy / 2(x ^ 2 +λ)
最后
β= xy /(x ^ 2 +λ)
如果您观察到分母,它将永远不会为零,因为我们要添加一些λ值(即超参数)。因此,β的值将尽可能低,但不会变为零。
LASSO回归:
L1 =(y-xβ)^ 2 + λ∑ |β|
现在将仅针对一个β解决此方程,而您可以将其推广为更多β:
因此,(y-xβ)^ 2 +λβ这是我们对一个β的方程,这里我考虑了β的+ ve值。
我们的目标是使上述方程式最小化,以便能够做到,将其等于零并采用导数wrtβ
Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ= 0 -------使用(ab)^ 2展开
偏导数wrt
-2xy + 2x ^2β+λ= 0
2x ^2β+λ= 2xy
2x ^2β=2xy-λ
最后
β=(2xy-λ)/(2X ^ 2)
如果观察分子,它将变为零,因为我们要减去一些λ值(即超参数)。因此,β的值将设置为零。