L1正则化何时比L2更好,反之亦然?


30

注意:我知道L1具有功能选择属性。我试图了解当功能选择完全不相关时应该选择哪一个。

  1. 如何决定要使用哪个正则化(L1或L2)?
  2. L1 / L2正则化的优点和缺点是什么?
  3. 是否建议首先使用L1选择特征,然后将L2应用于这些选定变量?

2
注意,“ L1特征选择”应被称为特征空间的正则化;有许多方法更好的方法来做到特征选择理解为获取信息什么是相关的建模问题。

@mbq:我很好奇,您在这里指的是“许多更好的方法”?
变形虫说恢复莫妮卡2015年

1
就像这里列举的那些。

Answers:


31

如何决定要使用哪个正则化(L1或L2)?

你的目标是什么?两者都可以通过惩罚系数来改善模型通用性,因为与结果具有相反关系的要素可以彼此“抵消”(较大的正值与较大的负值抵消)。当存在共线特征时,可能会出现这种情况。数据的细微变化可能会导致参数估计值大不相同(高方差估计值)。惩罚可以限制两个系数都较小。(Hastie等人,《统计学习的要素》,第二版,第63页)

L1 / L2正则化的优点和缺点是什么?

NN

L1正则化有时用作特征选择方法。假设您对可以使用的功能数量有一定的限制(因为所有功能的数据收集都很昂贵,或者您对可以存储的值有严格的工程约束,等等)。您可以尝试调整L1损失以达到所需的非零功能数量。

L2正则化可以通过约束系数范数并保留所有变量来解决多重共线性问题。不太可能估计系数为0。这不一定是一个缺点,除非由于某些原因稀疏系数向量很重要。

在回归设置中,它是估计回归特征多于观察值的问题的“经典”解决方案。L2正则化可以估计每个特征的系数,即使特征多于观测值(实际上,这是“岭回归”的原始动机)。

作为替代,弹性网允许L1和L2正则化为特殊情况。行业数据科学家的一个典型用例是,您只想选择最佳模型,但不必关心是否使用L1,L2或同时使用这两种方法进行惩罚。在这种情况下,弹性网非常有用。

是否建议首先使用L1选择特征,然后将L2应用于这些选定变量?

我对提出L1-then-L2管道的出版物不熟悉,但这对我来说可能只是无知。似乎没有什么不妥。我会进行文献审查。

存在一些类似的“分阶段”管道的示例。一种是“松弛套索”,它应用套索回归两次,一次用于从一大组特征中选择一小部分特征,第二次评估用于模型的系数。这在每个步骤使用交叉验证来选择惩罚的幅度。原因是在第一步中,您将交叉验证并可能会选择较大的罚分以筛选出不相关的预测变量。在第二步中,您将进行交叉验证,并且可能会选择较小的惩罚(因此系数更大)。在《统计学习的要素》中对此进行了简要提及,并引用了Nicolai Meinshausen(“放松的套索”。计算统计和数据分析 第52卷,第1期,2007年9月15日,第374-393页)。

用户@amoeba还建议使用L1-then-OLS管道。这可能很好,因为它仅对L1损失的幅度具有1个超参数,因此需要的摆弄更少。

任何先执行某些步骤然后执行其他一些步骤的“分阶段”分析管道都会出现的一个问题是,这些不同算法之间没有“可见性”,因此一个进程会继承在先前步骤中发生的任何数据侦听。这种影响不可忽略。构思不佳的建模会导致垃圾模型。

应对数据监听副作用的一种方法是对所有选择进行交叉验证。但是,增加的计算成本可能会令人望而却步。


抱歉,我没有按照我的第三点回答。你可以解释吗?
GeorgeOfTheRF

1
这全都在于正确地考虑乐观因素。出于同样的原因,我们要评估样本外数据的性能,因此必须以不允许步骤之间信息泄漏的方式执行所有过滤/预处理步骤。如果对整个数据集进行特征选择,然后进行一些分析,则会在噪声中找到信号。
Sycorax说恢复莫妮卡

好。那么在运行ML模型之前,推荐的特征选择方法是什么?
GeorgeOfTheRF

3
我的建议是“不要”。请参阅此处,以获取有关如何解决该问题的示例:stats.stackexchange.com/questions/164048/…但这与您最初提出的问题完全不同,您只需提出一个新问题。(这对您有利,因为您可以在新问题上获得更多代表。)
Sycorax说,请恢复莫妮卡(Monica

3
(+1)我没有看到文献中讨论过的L1跟L2,但这对我来说确实有意义。有L1跟随的LLS(又名“ LARS-OLS混合”)和L1跟随的L1(松弛的套索),因此也可以考虑L1跟随的L2。只要两个超参数都经过交叉验证,它应该是可行的正则化策略。
变形虫说莫妮卡(Monica)在

19

一般而言,如果您想要最佳预测,请使用L2。如果您想在预测性歧视方面有所牺牲,请使用L1。但是请注意,简约性可能是虚幻的,例如,使用引导程序重复套索过程通常会在“选定”的特征列表中显示出明显的不稳定性,尤其是当预测变量相互关联时。


“最佳预测”-您的意思是说L2通常会在看不见的数据上提供更好的准确性?
GeorgeOfTheRF

3
是的,特别是在预测性歧视方面。
Frank Harrell,2015年

1
L2L1

2
L2L1

太好了,谢谢您的澄清。这是很有意义的。(是的,您是对的;我将PD与有关风险的正确分类和/或受试者排序的概率的度量相关联,因此我很快说出“分类任务”;我的错,我应该格外小心。)
–usεr11852说,恢复莫尼克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.