注意:我知道L1具有功能选择属性。我试图了解当功能选择完全不相关时应该选择哪一个。
- 如何决定要使用哪个正则化(L1或L2)?
- L1 / L2正则化的优点和缺点是什么?
- 是否建议首先使用L1选择特征,然后将L2应用于这些选定变量?
注意:我知道L1具有功能选择属性。我试图了解当功能选择完全不相关时应该选择哪一个。
Answers:
如何决定要使用哪个正则化(L1或L2)?
你的目标是什么?两者都可以通过惩罚系数来改善模型通用性,因为与结果具有相反关系的要素可以彼此“抵消”(较大的正值与较大的负值抵消)。当存在共线特征时,可能会出现这种情况。数据的细微变化可能会导致参数估计值大不相同(高方差估计值)。惩罚可以限制两个系数都较小。(Hastie等人,《统计学习的要素》,第二版,第63页)
L1 / L2正则化的优点和缺点是什么?
L1正则化有时用作特征选择方法。假设您对可以使用的功能数量有一定的限制(因为所有功能的数据收集都很昂贵,或者您对可以存储的值有严格的工程约束,等等)。您可以尝试调整L1损失以达到所需的非零功能数量。
L2正则化可以通过约束系数范数并保留所有变量来解决多重共线性问题。不太可能估计系数为0。这不一定是一个缺点,除非由于某些原因稀疏系数向量很重要。
在回归设置中,它是估计回归特征多于观察值的问题的“经典”解决方案。L2正则化可以估计每个特征的系数,即使特征多于观测值(实际上,这是“岭回归”的原始动机)。
作为替代,弹性网允许L1和L2正则化为特殊情况。行业数据科学家的一个典型用例是,您只想选择最佳模型,但不必关心是否使用L1,L2或同时使用这两种方法进行惩罚。在这种情况下,弹性网非常有用。
是否建议首先使用L1选择特征,然后将L2应用于这些选定变量?
我对提出L1-then-L2管道的出版物不熟悉,但这对我来说可能只是无知。似乎没有什么不妥。我会进行文献审查。
存在一些类似的“分阶段”管道的示例。一种是“松弛套索”,它应用套索回归两次,一次用于从一大组特征中选择一小部分特征,第二次评估用于模型的系数。这在每个步骤使用交叉验证来选择惩罚的幅度。原因是在第一步中,您将交叉验证并可能会选择较大的罚分以筛选出不相关的预测变量。在第二步中,您将进行交叉验证,并且可能会选择较小的惩罚(因此系数更大)。在《统计学习的要素》中对此进行了简要提及,并引用了Nicolai Meinshausen(“放松的套索”。计算统计和数据分析 第52卷,第1期,2007年9月15日,第374-393页)。
用户@amoeba还建议使用L1-then-OLS管道。这可能很好,因为它仅对L1损失的幅度具有1个超参数,因此需要的摆弄更少。
任何先执行某些步骤然后执行其他一些步骤的“分阶段”分析管道都会出现的一个问题是,这些不同算法之间没有“可见性”,因此一个进程会继承在先前步骤中发生的任何数据侦听。这种影响不可忽略。构思不佳的建模会导致垃圾模型。
应对数据监听副作用的一种方法是对所有选择进行交叉验证。但是,增加的计算成本可能会令人望而却步。
一般而言,如果您想要最佳预测,请使用L2。如果您想在预测性歧视方面有所牺牲,请使用L1。但是请注意,简约性可能是虚幻的,例如,使用引导程序重复套索过程通常会在“选定”的特征列表中显示出明显的不稳定性,尤其是当预测变量相互关联时。