如果p> n,套索最多选择n个变量


13

弹性网的动机之一是对LASSO的以下限制:

在情况下,由于凸优化问题的性质,套索在饱和之前最多选择n个变量。这似乎是变量选择方法的限制功能。此外,除非系数的L1-范数上的界限小于某个值,否则套索的定义不明确。p>n

http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full

我知道LASSO是一个二次规划问题,但也可以通过LARS或逐元素梯度下降来解决。但是我不明白,如果,其中是预测变量的数量,是样本大小,那么在这些算法中我会遇到问题。为什么使用弹性网解决了这个问题,我将问题扩大到明显超过变量。p n p + n pp>npnp+np


2
如果套索限制使用以保持p <= n,那是缺点而不是优点。当p = n时,过度拟合是一个严重的问题。p = n的模型是饱和模型,通常会过拟合,因为它可以完美地拟合观察到的数据,但不一定能很好地预测未来的情况。
Michael R. Chernick

3
套索程序最多只能选择变量,这是因为可以使用LARS算法(对其稍加修改)来解决它,该算法在任何时候最多只能将变量纳入活动集中。这在弹性网情况下不成立,基本上是由于引入了惩罚,因此其行为更像是岭回归,后者的回归通常导致所有系数都不为零。Ñ 2nn2
主教

感谢您的回答,以及如何看到最多可以选择n个变量的梯度下降:在cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/上的演示论文(第4部分),
网址

3
@user:我认为您可能会将数学问题与其数值解决方案混为一谈。LARS算法显示套索解决方案最多选择变量。这与得出解决方案的实际数值方法无关,即LARS算法可提供有关问题的见解,但当然,等效解决问题的任何其他方法也必须具有相同的属性!:-)n
红衣主教

考虑特征重复次。将存在一个套索估计器,它具有恰好非零值(即使),因此您的陈述并非如此。p p > nppp>n
user795305

Answers:


10

如上所述,这不是算法的属性,而是优化问题的属性。KKT条件基本上使系数为非零,它必须与与残留的固定相关性相对应(是正则化参数)。| X 牛逼ĴŸ - X β | = λ λβj|Xjt(yXβ)|=λλ

用绝对值等解决各种复杂问题后,您将获得每个非零系数的线性方程式。由于当时矩阵的秩最多为,因此这是可以求解的方程式数,因此最多存在n个非零值(除非有冗余)。n p > nXnp>n

顺便说一下,这对于任何损失函数都是正确的,不仅是具有损失的标准套索。因此,实际上这是套索罚款的一项属性。我可以指出有很多论文表明了KKT的观点和得出的结论:Rosset和Zhu,分段线性正则化解决方案路径,Stats 2007年鉴及其中的参考文献。L2


KKT代表什么?另外,当谈论标准套索时,是否可能意味着L1损失?
miura 2012年

您好Saharon,欢迎访问该网站。您可以使用LaTeX使公式更整洁(我在您的答案中是这样做的),并且您无需签名,因为签名是自动添加的。
彼得·弗洛姆

1
@miura:KKT代表Karush-Kuhn-Tucker。KKT条件是(足够规则的)优化问题的解决方案必须满足的某些方程式(维基百科文章)。
mogron 2012年

我只是看到Ryan Tibshirani拥有非常相关的工作论文“套索问题和唯一性”。:stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731 2012年

6

n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

已经减少了。


(+1)这里有一个空白:请参阅我对OP帖子的评论。
user795305
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.