套索配方之间的联系


9

这个问题可能是愚蠢的,但我注意到拉索回归有两种不同的表达方式。我们知道套索问题是最小化由平方损失加 -1惩罚项组成的目标,表示为: L

minβyXβ22+λβ1

但是通常我看到套索估计量可以写成

β^n(λ)=argminβ{12nyXβ22+λβ1}

我的问题是,等价的吗?\ frac {1} {2n}一词从何而来?12n这两种说法之间的联系对我而言并不明显。

[更新]我想我应该问的另一个问题是,

为什么会有第二种说法?从理论上或计算上,以这种方式提出问题有什么好处?


2
如果将第二个公式中的\ lambda设置λ为等于第一个公式中\ lambda的1/(2n)倍,则第二个公式中的目标函数是第一个公式中的目标函数的1 /(2n)倍。实际上,您仅更改了损耗的度量单位。您如何认为这会改变\ beta的最佳值?λ1/(2n)β
ub

谢谢,@ Whuber。这对我来说很有意义。那为什么会有后一种说法呢?从理论上或计算上,以这种方式提出问题有什么好处?
曾钰

Answers:


10

它们的确等效,因为您可以随时调整(另请参见@whuber的注释)。从理论上讲,这是一个方便的问题,但据我所知这是没有必要的。从计算角度来看,我实际上发现非常烦人,因此如果我要设计使用正则化的算法,通常会使用第一个公式。λ1/(2n)

有点背景知识:当我第一次开始学习惩罚方法时,我在工作中到处都带着感到烦恼,所以我宁愿忽略它-甚至简化了我的一些计算。当时我的工作主要是计算。最近,我一直在进行理论研究,发现必不可少的(甚至与)。1/(2n)1/(2n)1/n

更多详细信息:当您尝试分析Lasso作为样本大小函数的行为时,您经常需要处理iid随机变量的总和,实际上,在通过归一化后,通常更方便地分析这些总和。 -考虑大数定律/中心极限定理(或者如果您想看中,度量的集中和经验过程理论)。如果损失之前没有项,那么最终会在分析结束时最终重新缩放某些内容,因此从那里开始通常会更好。在是方便,因为它取消了一些恼人的因素nn1/n1/22 在分析中(例如,当您采用平方损失项的导数时)。

另一种思考的方式是,在进行理论研究时,我们通常对随着增大而引起的解的行为感兴趣-也就是说,不是固定数量。实际上,当我们在某个固定数据集上运行套索时,从算法/计算的角度来看,确实是固定的。因此,将额外的归一化因子放在首位并不是全部有用。nnn

这些看起来很烦人,但在花了足够的时间处理这些不平等之后,我学会了爱。1/(2n)


3
一旦意识到这些归一化常数的用途,就可以在各处看到它们。
马修·德鲁里

谢谢您的解释。很高兴阅读您在此领域的出色经验。再次感谢您
克里斯蒂娜(Christina)2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.