Answers:
当在阶段模式下使用时,LARS算法是一种贪婪方法,不会产生可证明的一致性估计量(换句话说,当您增加样本数量时,它不会收敛到稳定的结果)。
相反,LASSO(以及当在LASSO模式下使用时的LARS算法)解决了凸数据拟合问题。特别是,这个问题(L1罚线性估计量)具有许多不错的证明性质(一致性,稀疏性)。
因此,除非您有充分的理由偏爱分阶段操作,否则我将尝试始终以LASSO模式使用LARS(或为LASSO使用其他求解器)。
如前所述,LARS是解决套索问题(即正规化最小二乘问题)的一种特殊方法。它的成功源于以下事实:它需要与标准最小二乘回归相当的渐近工作量,因此,其性能要比二次规划问题的解决方案高。LARS的后续扩展也解决了更普遍的弹性网问题,其中您将和正则化项之和包含在最小二乘函数中。升1 升2
这个答案的目的是要指出,如今的LARS似乎已经被坐标下降法和随机坐标下降法所取代。这些方法基于特别简单的算法,而同时的性能似乎要比LARS更高(通常快一两个数量级)。有关示例,请参见Friedman等人的这篇论文。
因此,如果您打算实施LARS,请不要这样做。使用协调下降需要几个小时。
套索解的计算是一个二次规划问题,可以通过标准数值分析算法来解决。但是最小角度回归程序是一种更好的方法。该算法利用套索问题的特殊结构,并提供了一种有效的方法来同时计算所有值的解 。
这是我的意见:
您的问题可以分为两部分。高维案例和低维案例。另一方面,这取决于选择最佳模型要使用的标准。在LARS的原始论文中,证明了选择最佳模型的标准,并且您还可以在本文的“讨论”中看到SVS和CV标准。通常,LARS和Lasso之间存在微小差异,可以完全忽略。
另外,LARS在计算上快速且可靠。套索速度很快,但是算法之间的微小差异会导致LARS赢得速度挑战。另一方面,在R中有替代的程序包,称为“ glmnet”,它比lars程序包更可靠(因为它更通用)。
综上所述,关于lars和套索没有什么可考虑的。这取决于要使用模型的上下文。
我个人建议在高维和低维情况下在R中都使用glmnet。或者如果您对不同的标准感兴趣,则可以使用http://cran.r-project.org/web/packages/msgps/软件包。
在某些情况下,最小二乘解的正则化版本可能更可取。例如,LASSO(最小绝对收缩和选择算子)算法找到一个最小二乘解,其约束为| β| 在图1中,参数向量的L1-范数不大于给定值。等效地,它可以解决α|最小二乘罚分的无约束最小化。β| 添加1,其中α是常数(这是约束问题的拉格朗日形式。)可以使用二次编程或更通用的凸优化方法以及特定算法(例如最小角度回归算法)来解决此问题。L1正则化公式在某些情况下很有用,因为它倾向于使用具有较少非零参数值的解决方案,有效减少给定解决方案所依赖的变量数量。[11] 因此,LASSO及其变体对于压缩传感领域至关重要。