如果仅对预测感兴趣,为什么在山脊上使用套索?


35

在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。

我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。

使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?



2
我看到了那个链接。它没有回答问题。
奥利弗·安吉尔

Answers:


33

你问这个问题是对的。通常,当使用适当的精度评分规则(例如,均方预测误差)时,岭回归将优于套索。Lasso花费一些信息来尝试找到“正确的”预测变量,在许多情况下,这样做甚至都不是一件好事。两者的相对性能取决于真实回归系数的分布。如果您实际上只有一小部分非零系数,套索的效果会更好。当我对预测准确性感兴趣时,我几乎一直都使用ridge。


1
您是否对预测准确性不感兴趣?
海象猫

1
@WalrustheCat有些人通常来自斯坦福大学,他们提倡在高维变量选择中使用Lasso。大概,弗兰克的意思是“ ...主要对预测准确性感兴趣”,而不是简单的“ ...对预测准确性感兴趣”,尽管在我看来,这两者之间的区别是两个有用的学问。
John Madden

我从未理解过“规整化为降维”方法。您可以通过或不通过套索正则化来执行降维,然后对所得特征上的原始问题使用最佳正则化函数。但是我离题了。
猫猫海象

8
从“总体来说,岭回归将胜过套索”和“如果您实际上有一小部分非零系数,套索可以表现得更好”,似乎可以得出结论,在大多数预测问题中,基本事实并不稀疏。这是你在说什么吗
变形虫说恢复莫妮卡

4
是的,主要是。如果您知道“分布中”的基本事实,则可以为未知回归系数创建贝叶斯先验分布,从而获得最佳结果。甚至,即使说有3/4个预测变量的效果完全为零,Rid仍能与套索竞争。
弗兰克·哈雷尔

10

我认为您参考的示例的特定设置对于理解套索为何胜过岭的关键:45个预测变量中只有2个实际上是相关的。

这与一个病理情况差不多:套索(lasso)是专门用来使归零变得容易的,其性能完全符合预期,而岭将不得不处理大量无用的项(即使它们的作用被归零为零,它仍然是一个非零效果)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.