为什么在L2上使用L1正则化?


10

使用损失函数进行线性回归模型,为什么我应该使用而不是L 2正则化?L1L2

是否可以防止过度拟合?它是确定性的(因此总是唯一的解决方案)?在特征选择上是否更好(因为产生稀疏模型)?它会分散特征之间的权重吗?


2
L2不进行变量选择,因此L1在这方面绝对更好。
Michael M

Answers:


5

基本上,我们添加一个正则化项,以防止系数如此完美地适合过度拟合。

L1和L2之间的差为L1是权重之和,而L2只是权重平方的和。

L1无法用于基于梯度的方法,因为它与L2一样不可微分

L1有助于在稀疏特征空间中执行特征选择。特征选择是要知道哪些特征是有用的,哪些是冗余的。

它们的属性之间的差异可以概括为:

l1与l2


1
“不能在基于梯度的方法中使用L1”是不正确的。例如,Keras支持它。是的,导数始终是常数,因此使得梯度下降很难找到最小值。但是正则化是损失函数中的一个小术语,因此在事物的总体方案中它不是很重要。
里卡多·克鲁兹

-1

L2对L1有一个非常重要的优势,那就是旋转和缩放不变。

这在地理/物理应用中尤其重要。

假设技术人员不小心将传感器安装在45度角,L1会受到影响,而L2(欧几里德距离)将保持不变。


4
这根本不是问题的答案。
kbrose

您能解释一下不变性吗?
aneesh joshi

@Chati,问题是关于正则化。您将其与损失函数中1-norm和2-norm的其他用法混淆了。
里卡多·克鲁兹
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.