脊，套索和弹性网

33

脊线，LASSO和Elasticnet正则化方法如何比较？它们各自的优点和缺点是什么？任何好的技术论文或讲义也将不胜感激。

references lasso regularization ridge-regression elastic-net

— 用户名
source

39

在《统计学习的要素》一书中，Hastie等人。提供这些收缩技术的非常有见地和彻底的比较。这本书可在线获得（pdf）。比较在第69页的3.4.3节中进行。

拉索和里奇之间的主要区别是他们使用的惩罚条款。Ridge使用惩罚项，它限制了系数向量的大小。Lasso使用罚分，这在系数之间施加了稀疏性，因此使拟合模型更具可解释性。Elasticnet是作为这两种技术之间的折衷而引入的，其代价是和规范的混合。 $L_2$ $L_1$ $L_1$ $L_2$

— MMM
source

3

那是一本很棒的参考书。

— bdeonovic 2014年

4

也因为作者是这些技术的发明者！

— 巴卡堡2015年

1

感谢您向我们推荐这本精美的书

— Christina

1

我也强烈建议您参阅第18.4节，第661-668页。提供有关套索与弹性网的更多信息。

— Katya Handler 2016年

1

截至2016

— Ashe

22

总而言之，这是套索，岭和弹性网之间的一些显着差异：

套索不会进行稀疏选择，而里奇则不会。
当您具有高度相关的变量时，Ridge回归会将两个系数彼此缩小。套索有点冷漠，通常会选择一个。根据上下文，一个人不知道选择哪个变量。弹性网是两者之间的折衷方案，它们试图同时缩小并进行稀疏选择。
$\lambda$ $\lambda$
$\beta$

— 巴拉克斯
source

@ balaks是您提出的第二点，“一个人不知道选择哪个变量”是什么意思？您是说LASSO漠不关心，所以它是随机选择的，所以我们真的不知道哪个是最好的吗？

— meTchaikovsky '18

4

我强烈建议您看一本《统计学习入门》（Tibshirani等，2013）。

这样做的原因是，《统计学习元素》一书旨在供受过数学科学高级培训的人员使用。在ISL的前言中，作者写道：

一个介绍统计学习从感知需要一个更广泛和更小的技术处理的这些话题出现。[...]

《统计学习入门》适用于统计学或相关定量领域的高级本科生或硕士生，或者适合希望使用统计学习工具分析其数据的其他学科的个人。

— 耶扎
source

1

您能否详细说明为什么您认为此参考有用？

— JM不是统计学家

1

引用一本书是可以的，但是请把它标记为报价，而不是您自己的文字。否则就是窃。我现在为你编辑了。

— 变形虫说莫妮卡（

1

上面的答案非常清楚和有益。从统计的角度来看，我想补充一点。以岭回归为例。当存在许多相关特征时，它是有序最小二乘回归的扩展，用于解决多重共线性问题。如果线性回归为

Y=Xb+e

多元线性回归的正态方程解

b=inv(X.T*X)*X.T*Y

岭回归的正态方程解为

b=inv(X.T*X+k*I)*X.T*Y.

它是b的有偏估计量，我们总是可以找到惩罚项k，这会使Ridge回归的均方误差小于OLS回归的均方误差。

对于LASSO和Elastic-Net，我们找不到这种分析解决方案。

— 艾玛
source