Answers:
简短答案:每当您遇到以下情况之一时:
通过在偏倚和方差之间取得更好的折衷,Ridge回归通常比OLS解决方案产生更好的预测。它的主要缺点是所有预测变量都保留在模型中,因此,如果您寻求简化模型或要应用某种特征选择,这并不是很有趣。
为了实现稀疏性,套索更为合适,但是在存在高共线性的情况下,套索不一定会产生良好的结果(已经观察到,如果预测变量高度相关,则套索的预测性能将由岭回归控制)。L1惩罚的第二个问题是,当变量数大于主题数时,套索解不是唯一确定的(岭回归不是这种情况)。套索的最后一个缺点是,它倾向于在成对相关性高的一组预测变量中仅选择一个变量。在这种情况下,存在诸如组之类的替代解决方案(即实现协变量块的收缩,即回归系数的某些块恰好为零)或融合套索。该图形套索还提供了GGMs有前途的功能(请参阅将R glasso包)。
但是,肯定地,由L1和L2罚分组合而成的弹性网准则既可以实现收缩,又可以自动选择变量,并且在的情况下,可以保持变量。继Zou和Hastie(2005)之后,它被定义为最小化的参数(超过)
其中和。
套索可以使用基于坐标下降的算法来计算,如Friedman and coll。在最近的论文《通过坐标下降的广义线性模型的正则化路径》(JSS,2010年)或LARS算法中所述。在R,该惩罚,拉斯或biglars,和glmnet包是有用的包; 在Python中,有scikit.learn工具包,其中包含有关应用所有三种正则化方案的算法的大量文档。
至于一般参考资料,“ 套索”页面包含了套索回归入门和有关L1罚则的技术细节的大部分信息,并且此相关问题具有必不可少的参考,我应该何时使用套索vs岭?