LASSO / LARS与一般到特定(GETS)方法


15

我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)?

同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。

似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法?

并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。


这里的路径依赖是什么意思?另外,您可以为GETS提供更多权威参考吗?我对此并不熟悉。
主教

这是一个更好的,更权威的参考文献,其中也提到了套索:degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/…
玉米饼2012年

我还要说的是要加上:所以您一个接一个地添加重要的回归变量,但是如果基于回归变量之间的相关性可能变得微不足道,则这种方法不允许您丢弃一个。因此,一旦添加了路径依赖关系,该回归变量现在就已设置且无法删除。不是这样吗
玉米饼2012年

1
如果套索的系数路径过零,则变量可能会在套索中途掉落。您是否熟悉Efron等。关于LARS的原始文章?它以良好的几何风格相当详细地说明了这一点。
主教

2
我认为套索之所以受欢迎,是因为它有效地将模型选择问题从假设检验之一转换为参数估计之一。
概率

Answers:


2

免责声明:我只是非常熟悉David F. Hendry等人进行的模型选择工作。但是,我从尊敬的同事那里知道,亨德利在计量经济学中在模型选择问题上取得了非常有趣的进步。要判断统计文献是否对他的模型选择工作没有给予足够的重视,就我而言,还需要做更多的工作。

但是,尝试理解为什么一个方法或想法比其他方法或活动产生更多活动是很有趣的。毫无疑问,科学也涉及时尚。正如我所看到的,套索(和朋友)的一大优势是可以解决非常容易表达的优化问题。这是对解决方案和开发出的高效算法的详细理论理解的关键。Bühlmann和Van De Geer 最近出版的《高维数据统计》一书说明了关于套索的已知信息。

您可以进行无休止的模拟研究,当然也可以应用发现的最相关且最适合特定应用的方法,但对于统计文献的某些部分,还必须获得大量的理论结果。套索产生了很多活动,反映出实际上可以解决一些理论问题,并且它们有有趣的解决方案。

另一点是,套索或变化在很多情况下表现良好。我根本不相信套索可以像OP所建议的那样轻易地被其他方法超越,这是正确的。可能是根据(人工)模型选择,而不是预测性能。提到的参考文献似乎都没有真正比较Gets和套索。


2

为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体

LASSO和(GETS)子集选择之间存在差异:LASSO以数据相关的方式将系数缩小为零,而(GETS)子集选择则不然。相对于(GETS)子集选择,这似乎是LASSO的优势,即使偶尔会失败(它需要参数调整,这通常是通过交叉验证完成的,有时我们可能会调优)。

(GETS)方法<...>比LARS / LASSO更好

由公正的研究人员完成时,GETS的性能似乎与LASSO相当(尽管在提出新版GETS的论文中不一定如此,但这是您所期望的);请参阅此线程中的一些参考。

也许Hendry&Co爵士由于其应用程序的特殊性(主要是宏观经济时间序列建模)而使用GETS取得了良好的结果?但是为什么会这样呢?这是一个单独的问题

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.