什么是弹性净正则化,它如何解决Ridge(


Answers:


42

1.首选哪种方法?

是的,弹性网始终比套索和岭回归更受青睐,因为它解决了两种方法的局限性,同时还包括每种特殊情况。因此,如果ridge或套索解决方案确实是最好的,那么任何好的模型选择例程都将其识别为建模过程的一部分。

对我的帖子的评论指出,弹性网的优点并非没有限制。我坚持认为,弹性网回归的一般性仍然比L1L2正则化更可取。具体来说,我认为自己与他人之间的争论点直接与我们愿意对建模过程做出的假设有关。在对基础数据有深入了解的情况下,某些方法将比其他方法更可取。但是,我偏爱弹性网是因为我怀疑人们会自信地知道L1L2是真实模型。

  1. 主张:先验知识可以消除使用弹性净回归的需求之一。

这有点循环。如果这有点麻烦,请原谅我,但是如果您知道LASSO(山脊)是最好的解决方案,那么您将不会问自己如何对它进行适当建模。您将只适合LASSO(山脊)模型。如果您完全确定正确的答案是LASSO(岭)回归,那么您显然确信没有理由浪费时间来安装弹性网。但是,如果您不太确定LASSO(岭)是否是正确的进行方法,那么我认为评估一个更灵活的模型并评估数据在多大程度上支持先前的信念是有意义的。

  1. L1L2L1L2

α{0,1},α=1α=0

  1. 声明:引入其他超参数会增加估计模型的计算成本。

λλαλ

  1. 声明:无法保证弹性网的性能优于LASSO或岭回归。

的确如此,但是在考虑使用哪种方法的步骤中,人们不会知道哪种弹性网,脊或LASSO最好。如果说最好的解决方案必须是LASSO或岭回归的原因之一,那么我们属于权利要求(1)的范畴。如果我们仍然不确定哪种方法最好,那么我们可以测试LASSO,脊线和弹性网解决方案,并在那时选择最终模型(或者,如果您是学者,则只需撰写有关这三种方法的论文即可) )。这种先验不确定性的情况要么使我们进入了权利要求(2)的领域,其中真实模型是LASSO /山脊,但我们事先不知道,并且由于标识不明确的超参数而偶然选择了错误的模型,或者弹性网实际上是最好的解决方案。

  1. 声明:没有交叉验证的超参数选择存在很大的偏见并且容易出错

α

2.弹性网背后的直觉和数学是什么?

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

α[0,1].

邹辉和Trevor Hastie。“ 通过弹性网进行正则化和变量选择。” JR统计资料。,第67卷(2005),第2部分,第301-320页。

理查德·哈迪(Richard Hardy)指出,这在Hastie等人的文章中有更详细的介绍。“统计学习的要素”第3和18章。

Lq

这是我在评论中提出的一个问题:

L3γγ0L3

我理解问题的实质是“如果如您所愿,并且有两项处罚是好的,为什么不增加另一项处罚呢?” 但是我认为答案在于为什么我们首先要进行正规化。

L1nnL2pL2p>n

撇开这些问题中的任何一个,由于估计量的收缩特性是“悲观的”并且将系数拉向0,因此正则化模型仍然不能胜过ML模型。

L3

L1L2

L1L2

L2L1L1L2

LqL1L2


4
说“弹性网总是比套索和岭回归更好”,这可能有点太强大了。在中小样本中,即使前者或后者实际上是相关的,弹性网也可能不会选择纯LASSO或纯脊溶液。有了丰富的先验知识,可以选择LASSO或山脊代替弹性网。但是,在没有先验知识的情况下,弹性网应该是首选的解决方案。
理查德·哈迪

4
α

7
γγ0

5
L1L2L3

3
“我们可以测试LASSO,脊线和弹性网解决方案,并选择最终模型”-我们可以,但是当然,它本身是一个新程序,可以优化随机误差准则,该准则可能会或可能不会更好比LASSo,或岭回归,或单独的弹性网。
Scortchi-恢复莫妮卡

11

我通常同意@Sycorax的答案,但我想补充一些限定。

说“弹性网总是比套索和岭回归更好”,这可能有点太强大了。在中小样本中,即使前者或后者实际上是相关的,弹性网也可能不会选择纯LASSO或纯脊溶液。有了丰富的先验知识,可以选择LASSO或山脊代替弹性网。但是,在没有先验知识的情况下,弹性网应该是首选的解决方案。

而且,弹性网在计算上比LASSO或山脊昂贵,因为必须使用交叉验证来选择LASSO与山脊的相对重量。如果阿尔法值的合理网格为[0,1],步长为0.1,则意味着弹性网的计算成本大约是LASSO或ridge的11倍。(由于LASSO和ridge的计算复杂度并不完全相同,因此结果只是一个粗略的猜测。)


1
或确实,LASSO或岭回归可能无法提供比无罚回归更好的预测性能。
Scortchi-恢复莫妮卡

4
什么样的先验知识会导致人们更喜欢套索?什么样的先验知识会导致人们更喜欢脊?
变形虫说恢复莫妮卡

4
@amoeba,如果所有回归变量都是相关的,但它们之间的相关性很高,则不需要选择变量,因此可以优先选择ridge。另一方面,如果某些回归变量可能完全不相关(但我们只是不知道哪个回归变量),则需要选择变量,而LASSO可能更可取。该知识将从主题领域获得。我认为Hastie等人可能会有一些例子。“统计学习的要素”或相关文献中,我只是不记得我在哪里读到的。
理查德·哈迪

1
@kjetilbhalvorsen,谢谢,这很有帮助。
理查德·哈迪

1
@amoeba,岭更适合于相关数据,其中L2鼓励在输入上进行许多小的加权(取平均值)。经典示例是使用独立噪声进行重复测量(例如,信号处理或同一主题的多次检查),而l1是在1 var主导另一个经典情况是层次数据的情况下更好:应在层次的最高级别估计系数。
seanv507
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.