封闭形式套索解的推导


52

minβ(YXβ)T(YXβ)β1t

βjlasso=sgn(βjLS)(|βjLS|γ)+
X

这似乎有些困惑。首先,假设约束为t然后在解决方案中引入参数γ。我猜您打算通过双重问题将这两者联系起来,但是也许您可以弄清楚自己在寻找什么。
主教

2
部分地响应于@cardinal,找到β最小化(YXβ)(YXβ)β1t相当于找到β最小化(YXβ)(YXβ)+γj|βj|t\ gamma之间存在1-1关系γ。为了“轻松地”了解软阈值结果为何如此,我建议解决第二个表达式(在我的评论中)。

2
另注,找到时β最小化(YXβ)(YXβ)+γj|βj|,将问题分解为βj>0βj<0β=0

2
@cardinal嗯,是1-1不正确。校正:对于每个t0,您都可以找到γ0

3
感谢您的精彩讨论!我在Coursera上观看了此视频- 导出套索坐标下降更新,这与该讨论非常相关,并且非常优雅地介绍了该解决方案。可能会对未来的访问者有所帮助:-)
zorbar '16

Answers:


63

这可以通过多种方式进行攻击,包括通过Karush–Kuhn–Tucker条件的相当经济的方法。

下面是一个非常基本的替代参数。

正交设计的最小二乘解

假设由正交列组成。然后,最小二乘解是 X

β^LS=(XTX)1XTy=XTy.

一些等效的问题

通过拉格朗日形式,可以直接看出问题中考虑的等效问题是

minβ12yXβ22+γβ1.

扩展第一项,我们得到,由于不包含任何对于感兴趣的变量,我们可以将其丢弃,然后考虑另一个等效问题, 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

注意,先前的问题可以重写为 β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

现在,我们的目标函数是目标的总和,每个目标对应一个单独的变量,因此可以分别求解它们。βi

整体等于部分之和

确定一个。然后,我们要最小化 i

Li=β^iLSβi+12βi2+γ|βi|.

如果,那么我们必须具有因为否则我们可以翻转其符号并为目标函数获得一个较低的值。同样,如果,那么我们必须选择。β^iLS>0βi0β^iLS<0βi0

情况1:。由于, 并针对并将其设置为零,我们得到,这仅在右侧为非负值时才可行,因此在这种情况下,实际的解决方案是 β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

情况2:。这意味着我们必须具有,因此 关于并将其设置为零,我们得到。但是,再次,为了确保这是可行的,我们需要,这可以通过使 β^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

在这两种情况下,我们都获得了所需的形式,因此就完成了。

结束语

请注意,随着增加,每个必然减少,因此也是如此。当,我们恢复OLS解,并且对于,我们对所有都获得。γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i


2
大写@cardinal!
加里(Gary

9
1整个第二半可以通过简单的观察目标函数被替换是在处具有顶点的两个凸抛物线的部分的并集,其中取负号,否则取正号。公式只是选择较低顶点的一种好方法。β12β2+(±γβ^)β±γβ^β<0
Whuber

如果可能的话,我想看看使用KKT优化条件的推导。还有什么其他方法可以得出此结果?
user1137731

5
@Cardinal:感谢您的推论。一种观察。如果我还记得,具有正交列的矩阵与正交(aka正交)矩阵不同。那么对于一些对角矩阵(不一定是单位矩阵),有了正交矩阵假设(就像原始问题一样),我们确实有而且看起来都很不错:)XX=DDXX=I
Oleg Melnikov

@cardinal我不明白为什么你说“因为否则我们可以翻转其符号并为目标函数获得一个较低的值”。我们正在采用目标函数的导数。那么,如果目标函数更高或更低,谁在乎呢?我们只关心导数设置为零,我们关心极值。无论是高一个常数还是一个常数都不影响argmin。
user13985

7

假定协变量,的列,也是标准化的,使得。这只是为了以后的方便:没有它,由于仅是对角线,因此表示法变得更重。进一步假设。这是保持结果的必要假设。定义最小二乘估计器。然后,套索估计的(拉格朗日形式) xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ {端对齐*} 其中是一个函数的近端操作者和通过量软阈值proxffSαα

此推导跳过了Cardinal制定的近端操作员的详细推导,但是,我希望阐明使闭合表格成为可能的主要步骤。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.