何时使用正则化方法进行回归?


Answers:


75

简短答案:每当您遇到以下情况之一时:

  • 大量变量或低比率。观察到没有。变量(包括情况),np
  • 高共线性,
  • 寻找稀疏的解决方案(即在估计模型参数时嵌入特征选择),或
  • 将高维数据集中的变量分组考虑在内。

通过在偏倚和方差之间取得更好的折衷,Ridge回归通常比OLS解决方案产生更好的预测。它的主要缺点是所有预测变量都保留在模型中,因此,如果您寻求简化模型或要应用某种特征选择,这并不是很有趣。

为了实现稀疏性,套索更为合适,但是在存在高共线性的情况下,套索不一定会产生良好的结果(已经观察到,如果预测变量高度相关,则套索的预测性能将由岭回归控制)。L1惩罚的第二个问题是,当变量数大于主题数时,套索解不是唯一确定的(岭回归不是这种情况)。套索的最后一个缺点是,它倾向于在成对相关性高的一组预测变量中仅选择一个变量。在这种情况下,存在诸如组之类的替代解决方案(即实现协变量块的收缩,即回归系数的某些块恰好为零)或融合套索。该图形套索还提供了GGMs有前途的功能(请参阅将R glasso包)。

但是,肯定地,由L1和L2罚分组合而成的弹性网准则既可以实现收缩,又可以自动选择变量,并且在的情况下,可以保持变量。继Zou和Hastie(2005)之后,它被定义为最小化的参数(超过)m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

其中和。β2=j=1pβj2β1=j=1p|βj|

套索可以使用基于坐标下降的算法来计算,如Friedman and coll。在最近的论文《通过坐标下降的广义线性模型的正则化路径》(JSS,2010年)或LARS算法中所述。在R,该惩罚拉斯biglars,和glmnet包是有用的包; 在Python中,有scikit.learn工具包,其中包含有关应用所有三种正则化方案的算法的大量文档

至于一般参考资料,“ 套索”页面包含了套索回归入门和有关L1罚则的技术细节的大部分信息,并且此相关问题具有必不可少的参考,我应该何时使用套索vs岭?


1
如果我有很多观测值且变量相对较少,但信噪比很低怎么办?实际上,它太低了,以至于过度拟合是一个非常现实的问题。尝试进行正则化是明智的尝试,以提高预测准确性吗?
NPE 2010年

1
@aix这取决于您实际调用的几个变量以及要处理的变量类型。但是我认为在您的情况下,最好采用脊线方式。您也可以查看Boosting Ridge回归(Tutz和Binder,2005年)。还提出了惩罚性的ML估计作为防止过度拟合的内置方法。参见例如“惩罚最大似然估计”以预测二进制结果:Moons KG,Donders AR,Steyerberg EW,Harrell FE。J.临床 流行病。2004,57(12):1262–70。
chl 2010年

20

使用岭回归的理论依据是,它的解是给定系数正态先验的后验均值。也就是说,如果您关心平方误差,并且相信一个正常的先验,则岭估计是最佳的。

同样,套索估计是系数上双指数先验下的后验模式。这在零一损失函数下是最佳的。

实际上,在您具有许多相关变量而不是大量数据的情况下,这些技术通常可以提高预测准确性。虽然OLS估算器最好是线性无偏的,但在这些情况下它具有很高的方差。如果您看一下偏差-方差的权衡,则预测精度会提高,因为偏差的小幅增加远大于方差的大幅度抵消。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.