网桥惩罚与Elastic Net正则化


22

很好地研究了一些罚函数和近似值,例如LASSO()和Ridge()以及它们如何进行回归比较。L1L2

我一直在阅读有关Bridge惩罚的信息,即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较,使其成为特殊情况。 γ = 1 γ = 2βjγγ=1γ=2

Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ1与LASSO进行了比较,但是我找不到与LASSO和Ri​​dge惩罚相结合的弹性网正则化的比较,给出为λ2β2+λ1β1

这是一个有趣的问题,因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆(pMinkowski距离的幂):

单位圈出Minkowski距离的不同幂

p=1对应于LASSO,p=2对应于Ridge,p=1.4于一个可能的网桥。弹性网在L1L2罚分上具有相等的权重。例如,这些数字可用于识别稀疏性(Bridge明显缺少稀疏性,而Elastic Net将其保存在LASSO中)。

那么在正则化(稀疏性除外)方面,具有1 <\ gamma <2的Bridge与1<γ<2Elastic Net相比如何?我对监督学习特别感兴趣,因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。

也许更重要的是,在这种情况下,Elastic Net是否总是更理想?


[1] Fu,WJ(1998)。惩罚回归:桥梁与套索。计算与图形统计杂志,7(3),397-416。


编辑:有这个问题如何决定使用哪种惩罚措施?教科书中没有任何一般性准则或经验法则,这些准则或准则粗略地提到了LASSO,Ridge,Bridge和Elastic Net,但没有尝试进行比较。


4
仅与切向相关,但是如果范数罚分是系数具有独立拉普拉斯先验的贝叶斯回归的MAP估计,而高斯先验的相同,我想知道Bridge罚分是否等同于Subbotin先验... stats.stackexchange.com/questions/201038/…–L 2L1L2
Sycorax表示莫妮卡(

@RichardHardy不需要在所有大写字母中写套索,请在这里查看我的评论
变形虫说莫妮卡(Reonica Monica)

2
请记住,Bridge回归允许给出非凸回归。这些在尝试选择协变量组(尤其是从稀疏数据中)时特别有用。或通常,您可以具有预定义的协变量组,可以对它们进行正则化,以使特定的组都不大,然后单个组系数进行正则化以实现稀疏性。即,如果您编写,其中则可以执行。大号2 大号1 β = 一个1一个ķ一个 = β 1β 2β - [R λ 1β γ + λ 2 Σ 一个ν γ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR。我实际上应该明确指出我指的是。我不知道也被称为Bridge。γ < 1γ1γ<1
Firebug

1
@amoeba,好的,很好。我通常不编辑整个帖子中是否使用大写字母,但是这次同时存在“ LASSO”和“ lasso”,因此我只选择了“ LASSO”,这是该帖子中的第一种形式。我一直在想首字母缩写,这就是为什么我使用所有大写字母的原因。但是正如您所说,简单的“套索”可能会更好。
理查德·哈迪

Answers:


20

考虑到它们的相似处罚,桥回归和弹性网如何不同是一个有趣的问题。这是一种可能的方法。假设我们解决了桥梁回归问题。然后我们可以问弹性网解将如何不同。查看两个损失函数的梯度可以告诉我们一些有关此的信息。

桥梁回归

假设是一个包含自变量值(个点x维)的矩阵,是一个包含因变量值的向量,是权重向量。Ñ d ÿ 瓦特Xndyw

损失函数惩罚的权的规范,震级:λ bqλb

Lb(w)=yXw22+λbwqq

损失函数的梯度为:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

表示哈达玛(即逐元素)功率,这使得其一个向量个要素是 v Ç sgn w 是符号函数(应用于 w的每个元素)。对于某些 q值,梯度可能未定义为零。vcivicsgn(w)wq

弹力网

损失函数为:

Le(w)=yXw22+λ1w1+λ2w22

这阻碍了该与大小的权重的范数λ 12与大小范数λ 2。弹性网纸称将这种损失函数最小化为“天真弹性网”,因为它使重量减小了两倍。他们描述了一种改进的过程,其中权重后来被重新调整以补偿双倍收缩,但是我将分析天真的版本。需要牢记的是警告。1λ12λ2

损失函数的梯度为:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

梯度是在零未定义当,因为在绝对值1罚分是不可微的存在。λ1>01

方法

假设我们选择权重来解决桥梁回归问题。这意味着此时的桥回归梯度为零:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

因此:

2XT(yXw)=λbq|w|(q1)sgn(w)

我们可以将其代入弹性净梯度,得到的弹性净梯度的表达式。幸运的是,它不再直接取决于数据:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

查看处的弹性网梯度可以告诉我们:鉴于桥梁回归已经收敛到权重w ,弹性网将如何改变这些权重?ww

它为我们提供了所需变化的局部方向和幅度,因为梯度指向最陡的上升方向,并且当我们沿与梯度相反的方向移动时,损耗函数将减小。梯度可能不会直接指向弹性净解。但是,由于弹性净损失函数是凸的,因此局部方向/幅值会提供一些有关弹性净解与桥回归解的差异的信息。

情况1:健全性检查

)。在这种情况下,桥回归等效于普通最小二乘(OLS),因为惩罚幅度为零。弹性净相当于岭回归,因为只有2规范的处罚。下图显示了不同的桥梁回归解决方案,以及每种解决方案的弹性净梯度如何变化。λb=0,λ1=0,λ2=12

在此处输入图片说明

左图:沿每个维度的弹性净梯度与桥回归权重

x轴表示通过桥回归选择的一组权重一个分量。y轴表示弹性净梯度的相应分量,在w 处评估。请注意,权重是多维的,但我们只是看一维的权重/渐变。ww

右图:弹性净变化以桥接回归权重(2d)

每个点代表通过桥回归选择的一组二维权重。对于w ∗的每个选择,将绘制一个向量,该向量指向与弹性净梯度相反的方向,其大小与该梯度的大小成比例。也就是说,绘制的矢量显示了弹性网如何更改桥回归解。ww

这些图表明,与网桥回归(在这种情况下为OLS)相比,弹性网(在此情况下为脊线回归)希望将权重缩小为零。所需的收缩量随重量的大小而增加。如果权重为零,则解决方案相同。解释是我们要在与梯度相反的方向上移动以减少损失函数。例如,假设桥回归对于权重之一收敛为正值。弹性网的坡度在这一点上为正,因此弹性网要减少此重量。如果使用梯度下降,我们将采取与梯度成比例的步长(当然,由于零的不可微性,我们在技术上无法使用梯度下降来求解弹性网,

案例2:匹配桥和弹性网

q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

[2,2]

罚球面

q=1.4,λb=100λ1=0.629,λ2=0.355

在此处输入图片说明

渐变行为

在此处输入图片说明

我们可以看到以下内容:

  • wjj
  • |wj|<0.25
  • |wj|0.25
  • 0.25<|wj|<1.31
  • |wj|1.31
  • |wj|>1.31

qλbλ1,λ2

案例3:桥和弹性网不匹配

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

在此处输入图片说明

相对于桥接回归,弹性网希望将较小的权重缩小为零,并增加较大的权重。在每个象限中只有一组权重,其中桥回归和弹性网解决方案重合,但是如果权重甚至略有不同,则弹性网希望远离此点。

(q=1.2,λb=1,λ1=173,λ2=0.816)1q>1λ1,λ221 罚款)。

在此处输入图片说明

相对于桥梁回归,弹性网希望增加较小的权重并缩小较大的权重。每个象限中都有一个点,桥回归和弹性网解重合,并且弹性网希望从相邻点移向这些权重。


3
(+1)很好的答案,感谢您的努力!您能否解决最后一件事:“ Elastic Net总是更可取吗?”。无需冗长;
Firebug

6
桥回归和弹性网等效于MAP估计,并且权重具有不同的先验。从这个角度来看,似乎最好的选择是更好地匹配数据生成过程的先验方法,并且这两种方法在所有情况下都不会更好。
user20160

2
+6,非常好的答案。关于您的上述评论:先前的收益率是什么桥接?我知道高斯先验对应于里奇,而拉普拉斯则对应于套索。可以以某种方式将这些先验组合起来以获得与弹性网相对应的东西吗?
变形虫说莫妮卡

2
@amoeba,我知道问题并不是针对我的,但是正如GeneralAbrial在问题中所说的那样,bridge可能对应于先前的Subbotin。如所预期的,弹性网在高斯和拉普拉斯先验之间。参见Li,Q.,&Lin,N.(2010)。 贝叶斯弹性网。 贝叶斯分析,5(1),151-170。Zou,H.,&Hastie,T.(2005)。 通过弹性网进行正则化和变量选择。 皇家统计学会杂志:B系列(统计方法),67(2),301-320。弹性网和桥回归之间的简要比较。
Firebug

2
@amoeba感谢您的悬赏,并吸引了我对这篇文章的关注,以及其他有关PCA与非线性降维的文章。值得称赞的是,您使用自己的代表来宣传其他人的问题/答案,这对我来说至少对人们来说没有什么价值,这让我感到高兴。其他人,也感谢您的客气话。
user20160
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.