何时使用正则化方法进行回归？

83

在什么情况下应该考虑使用正则化方法（岭，套索或最小角度回归）而不是OLS？

如果这有助于引导讨论，我的主要兴趣是提高预测准确性。

— NPE
source

75

简短答案：每当您遇到以下情况之一时：

大量变量或低比率。观察到没有。变量（包括情况）， $n\ll p$
高共线性，
寻找稀疏的解决方案（即在估计模型参数时嵌入特征选择），或
将高维数据集中的变量分组考虑在内。

通过在偏倚和方差之间取得更好的折衷，Ridge回归通常比OLS解决方案产生更好的预测。它的主要缺点是所有预测变量都保留在模型中，因此，如果您寻求简化模型或要应用某种特征选择，这并不是很有趣。

为了实现稀疏性，套索更为合适，但是在存在高共线性的情况下，套索不一定会产生良好的结果（已经观察到，如果预测变量高度相关，则套索的预测性能将由岭回归控制）。L1惩罚的第二个问题是，当变量数大于主题数时，套索解不是唯一确定的（岭回归不是这种情况）。套索的最后一个缺点是，它倾向于在成对相关性高的一组预测变量中仅选择一个变量。在这种情况下，存在诸如组之类的替代解决方案（即实现协变量块的收缩，即回归系数的某些块恰好为零）或融合套索。该图形套索还提供了GGMs有前途的功能（请参阅将R glasso包）。

但是，肯定地，由L1和L2罚分组合而成的弹性网准则既可以实现收缩，又可以自动选择变量，并且在的情况下，可以保持变量。继Zou和Hastie（2005）之后，它被定义为最小化的参数（超过） $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

其中和。 $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

套索可以使用基于坐标下降的算法来计算，如Friedman and coll。在最近的论文《通过坐标下降的广义线性模型的正则化路径》（JSS，2010年）或LARS算法中所述。在R，该惩罚，拉斯或biglars，和glmnet包是有用的包; 在Python中，有scikit.learn工具包，其中包含有关应用所有三种正则化方案的算法的大量文档。

至于一般参考资料，“ 套索”页面包含了套索回归入门和有关L1罚则的技术细节的大部分信息，并且此相关问题具有必不可少的参考，我应该何时使用套索vs岭？

— hl
source

1

如果我有很多观测值且变量相对较少，但信噪比很低怎么办？实际上，它太低了，以至于过度拟合是一个非常现实的问题。尝试进行正则化是明智的尝试，以提高预测准确性吗？

— NPE 2010年

1

@aix这取决于您实际调用的几个变量以及要处理的变量类型。但是我认为在您的情况下，最好采用脊线方式。您也可以查看Boosting Ridge回归（Tutz和Binder，2005年）。还提出了惩罚性的ML估计作为防止过度拟合的内置方法。参见例如“惩罚最大似然估计”以预测二进制结果：Moons KG，Donders AR，Steyerberg EW，Harrell FE。J.临床流行病。2004，57（12）：1262–70。

— chl 2010年

20

使用岭回归的理论依据是，它的解是给定系数正态先验的后验均值。也就是说，如果您关心平方误差，并且相信一个正常的先验，则岭估计是最佳的。

同样，套索估计是系数上双指数先验下的后验模式。这在零一损失函数下是最佳的。

实际上，在您具有许多相关变量而不是大量数据的情况下，这些技术通常可以提高预测准确性。虽然OLS估算器最好是线性无偏的，但在这些情况下它具有很高的方差。如果您看一下偏差-方差的权衡，则预测精度会提高，因为偏差的小幅增加远大于方差的大幅度抵消。

— ncray
source