做“双套索”或两次做套索的优势?


26

我曾经听过两次使用套索的方法(如双套索),在这种方法中,对原始变量集(例如S1)执行套索,获得稀疏集S2,然后再次对集合S2执行套索以获得集合S3 。为此有方法论上的术语吗?另外,做套索两次有什么好处?

Answers:


23

是的,您要询问(或考虑)的过程称为宽松套索

通常的想法是,在第一次执行LASSO的过程中,您可能会包含“噪声变量”。对第二组变量(在第一个LASSO之后)执行LASSO,可以使作为模型一部分的“真正竞争者”变量之间的竞争减少,而不仅仅是“噪声”变量。从技术上讲,此方法旨在解决具有大量变量的数据集中LASSO的(已知)缓慢收敛问题。

您可以在Meinshausen(2007)的原始论文中阅读更多相关信息。

我还建议有关统计学习要素的第3.8.5节(Hastie,Tibshirani和Friedman,2008年),该节概述了使用LASSO执行变量选择的其他非常有趣的方法。


谢谢!我一定会看一下梅因斯豪森的文章。
Bstat 2012年

19

这个想法是将套索的两种效果分开

  1. 变量选择(即,许多甚至大多数都为零)β
  2. 系数收缩(即,即使非零,其绝对值也比无尾回归中的小)。即使没有选择,这通常也是一件好事,因为您可以避免过度拟合。β

如果你有很多的变量(),并套索运行,那么你想有一个大的点球选择少量的变量。但是,这种惩罚可能会使所选变量缩小得太多(拟合不足)。p>>n

宽松套索的想法是将两种效果分开:在第一遍中使用高罚分来选择变量;而第二遍的罚则较小,可以将其缩小。

原始论文(由Néstor链接)提供了更多详细信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.