套索的LARS与坐标下降


13

使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点?

我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。

编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降?

[1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。
[2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

Answers:


13

在scikit-learn中,具有坐标下降关系Lasso的实现往往比我们的LARS的实现更快,尽管对于小p(例如您的情况),它们大致相当(LARS甚至可以通过最新的优化来更快)。主回购)。此外,坐标下降可有效实施弹性网正则化问题。LARS并非如此(它只能解决套索,又称L1罚球问题)。

弹性净罚分法倾向于产生比Lasso更好的泛化(更接近于岭回归的解),同时保持Lasso的良好稀疏性诱导特征(监督特征选择)。

对于较大的N(以及较大的p,稀疏与否),您也可以尝试随机梯度下降(具有L1或弹性净罚分)(也可以在scikit-learn中实现)。

编辑:这里有一些基准,比较了LassoLARS和 scikit-learn中的坐标下降实现


(+1)@ogrisel非常感谢!由于我可能最终不得不自己编写代码(在Java中需要它,并且还没有看到任何开源Java实现),那么您说哪种算法更容易实现?
NPE

1
坐标下降和SGD都易于实现(请查看Leon Bottou的网页以获得SGD的入门介绍)。LARS可能很难正确。
ogrisel

太好了,谢谢!我将检查LéonBottou的网站。
NPE 2010年

@ogrisel(+1)很高兴在这里见到您。
chl 2010年

2
@aix我已经编辑了答案,为scikit-learn中的当前实现添加了一些基准。还要在实现自己的坐标下降之前检出Java版本的liblinear,因为它可能对您已经足够了(尽管您不能同时拥有L1和L2 reg)。
ogrisel
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.