套索为什么提供变量选择?


75

我一直在阅读《统计学习的元素》,我想知道为什么套索不能提供变量选择,而岭回归却不提供。

两种方法都将残差平方和最小化,并对参数的可能值具有约束。对于套索,约束是,而对于山脊,约束是,对于某些。β| | β | | 2||β||1t||β||2tt

我已经看过这本书中的菱形与椭圆形图片,对于套索为什么会碰到约束区域的角点,我有一些直觉,这意味着系数之一设置为零。但是,我的直觉很弱,我没有被说服。它应该很容易看到,但是我不知道为什么这是真的。

因此,我想我正在寻找数学上的证明,或者是对为什么残留平方和的轮廓可能会击中约束区域的角的直观解释 (而这种情况不太可能发生,约束是)。| | β | | 2||β||1||β||2


以下所有答案都是很好的解释。但是我发表了一篇带有视觉表达的文章。以下是链接medium.com/@vamsi149/...
solver149

Answers:


70

让我们考虑一个非常简单的模型:,在上使用L1罚分,在上使用最小二乘损失函数。我们可以将表达式扩展为最小:y=βx+eββ^Èe^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

让我们假设最小二乘解是,这等效于假设,然后看看当我们加上L1罚金时会发生什么。如果,,因此惩罚项等于。目标函数wrt为:β^>0yTx>0 β >0| β | = β 2λβ ββ^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

显然具有解决方案。 β^=(yTxλ)/(xTx)

显然,通过增加我们可以将驱动为零(在)。但是,一旦,增加不会使其变为负值,因为松散地写,瞬间变为负值,目标函数的导数变为:λββ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

符号的翻转是由于惩罚项的绝对值性质所致;当变为负数时,惩罚项等于,并且对导数wrt得出。这导致解决方案,显然与不一致(假设最小二乘解,这意味着和λβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0)。当将从移到,L1罚则增加,并且平方误差项增加(因为我们距离最小二乘解越来越远),所以我们没有,我们只是坚持。β^0<0β^=0

应该直观地看出,对于最小二乘解,采用相同的逻辑以及适当的符号更改。 β^<0

但是,使用最小二乘罚分,导数变为:λβ^2

2yTx+2xTxβ^+2λβ^

显然有解决方案。显然,增加不会将其一直推动为零。因此,如果没有一些轻微的要求,例如“如果参数估计值小于则将参数估计值设为零”,那么L2罚则就不能充当变量选择工具。 β^=yTx/(xTx+λ)λϵ

显然,当您使用多元模型时,情况可能会发生变化,例如,移动一个参数估计值可能会迫使另一个参数更改符号,但是一般原理是相同的:L2罚函数不能使您一直为零,因为非常启发式地编写,所以它实际上添加了表达式的“分母” ,但是L1惩罚函数可以添加,因为它实际上添加了“分子”。 β^


如果是非线性模型(例如NN),Lasso是否也提供特征选择?
伊利亚2015年

一个较小的后续问题:如果是向量而是一个标量,我们可以改变以找到合适的值,那么怎么办?λ=yTxyTxλ
Jekaterina Kokatjuhha

我使用的是单变量示例,因此是标量。如果要解决多变量问题,则乘以长度为大小或适当大小的恒等矩阵的矢量乘以向量,具体取决于要解决的问题。您可以通过注意到 =的L2-范数,并在上述公式中进行替换来解决这一问题。yTxλβzzTIz
jbowman

由于惩罚函数的绝对性质,是否有可能显示(数学上?)lambda的符号如何翻转,因为我无法遵循这一逻辑。
user1420372 '18 -10-3

@ user1420372-已经完成;让我知道你的想法。
jbowman '18 -10-3

9

假设我们有一个y = 1和x = [1/10 1/10]的数据集(一个数据点,两个特征)。一种解决方案是选择一个功能,另一个功能是对两个功能进行加权。即我们可以选择w = [5 5]或w = [10 0]。

请注意,对于L1规范,两者的惩罚相同,但权重越大,对L2规范的惩罚就越低。


8

我认为已经有了一些优秀的答案,只是为了增加一些关于几何解释的直觉:

“套索执行收缩,因此约束中存在“角”,它在二维上对应于菱形。如果平方和“命中”这些角之一,则对应于轴的系数将缩小归零。L1

随着增加,多维菱形的角数增加,因此很有可能将某些系数设置为零。因此,套索执行收缩和(有效)子集选择。p

与子集选择相反,岭执行柔和的阈值处理:随着平滑参数的变化,估计的采样路径连续移动到零。”

资料来源:https : //onlinecourses.science.psu.edu/stat857/book/export/html/137

彩色线是回归系数朝零缩小的路径时,效果可以很好地看到。

在此处输入图片说明

“ Ridge回归将所有回归系数缩小到零;套索倾向于给出一组零回归系数,并导致稀疏解。”

在此处输入图片说明

资料来源:https : //onlinecourses.science.psu.edu/stat857/node/158

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.