Ridge&LASSO规范


12

这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好?

这是我的问题:

据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。222

作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。111

有人可以帮我澄清一下吗?


2
岭回归中的惩罚项是平方L2范数。参见以Tisshirani为例的幻灯片(幻灯片7)stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf另请参见此处en.wikipedia.org/wiki/Tikhonov_regularization
boscovich,2014年

需要澄清的是,这些是Ryan Tibshirani 而非 Rob的幻灯片。
Ellis Valentiner

好的,非常感谢您的澄清。但是我不明白为什么对L2求平方而不对L1求平方。我们没有任何形式化的通用公式吗?
PLOTZ

@ user12202013:感谢您指出这一点。我没注意到。
boscovich 2014年

Answers:


9

Ridge套索是正则化和回归的两种方式。拉索回归对绝对系数的总和施加约束:

一世β一世2=||β||1个

Ridge回归对平方差的总和施加约束:

一世β一世2=一世β一世22=||β一世||22

您甚至建议引入另一个范数,即系数的欧几里德长度:

一世β一世2=||β一世||2

岭回归和欧几里德长度之间的差异是平方。这确实改变了对正则化的解释。岭和欧几里得长度均趋于零,而岭回归也不同。距离零更远的系数趋于零。这使它在零附近更稳定,因为正则化在零附近逐渐变化。欧氏长度或套索回归并非如此。


7

现在有许多具有各种不同惩罚功能的惩罚方法(岭,套索,MCP,SCAD)。为什么是一种特定形式的问题基本上是“这种惩罚有什么优点/缺点?”。

感兴趣的属性可能是:

1)几乎没有偏见的估计量(请注意,所有受惩罚的估计量都会有偏见)

2)稀疏性(请注意,岭回归不会产生稀疏结果,即不会将系数一直缩小到零)

3)连续性(避免模型预测中的不稳定)

这些只是惩罚函数可能会感兴趣的一些属性。

这是比较容易的工作很多,在推导和理论工作的总和:如| | β | | 1 = | β | 。想象我们是否有||β||22=|β一世|2||β||1个=|β一世|Σ|β|2。采取导数(这对于显示理论结果(如一致性,渐近正态性等)是必不可少的),将受到诸如此类的惩罚。|β一世|2|β一世|2


好,谢谢。但是,为什么对L2求平方而不对L1求平方呢?我们没有任何形式化的通用公式吗?这让我感到困惑……
PLOTZ

@PLOTZ我在回答中添加了一些内容。
bdeonovic

非常感谢本杰明!当然,现在更清楚了!在您回答之前,我没有达到这个理论目的。非常感谢您的回答。
PLOTZ

@Benjamin:在第一点上,您实际上是在说“((并非所有受惩罚的估计量都是无偏见的)”吗?岭回归(仅举一例)有偏差。
boscovich 2014年

哎呀,是的,谢谢您!我认为实际上所有惩罚性估计量都会有偏差。
bdeonovic

5

实际上,两者的平方范数和1范数来自同一类正规化:β p pp > 021个βppp>0

然后,Ridge回归使用,套索套索p = 1,但可以使用p的其他值。p=2p=1个p

例如,你有的所有值稀疏溶液,和的值越小p越稀疏的解。p1个p

对于值你的目标是不再平滑,因此优化变得更加困难; 对于p < 1,目标是非凸的,因此优化更加困难...p1个p<1个


2

2

ÿ-Xβ22+λβ22

ÿ-Xβ22+λβŤβ

β

β^=XŤX+λ一世-1个XŤÿ

从中可以得出所有的推论。


1

222X||X||2XX||X||22β=02

22

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.