为什么拉普拉斯事前生产稀疏解决方案?


22

我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。

我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。

但是为什么会发生呢?

如果需要提供更多信息或阐明我的思路,请发表评论。



1
一个非常简单直观的解释是,使用L2范数时惩罚会减少,而使用L1范数时惩罚不会减少。因此,如果可以使损失函数的模型部分保持相等,并且可以通过减少两个变量之一来实现,那么在L2情况下而不是L1情况下,最好以绝对值较高的方式减少变量。
testuser 2016年

Answers:


21

拉普拉斯本人发现了拉普拉斯先验分布与中位数(或L1范数)的关系,他发现使用这种先验估计的是中位数而不是正态分布的均值(请参阅Stingler,1986或Wikipedia)。这意味着具有拉普拉斯误差分布的回归估计中位数(例如分位数回归),而正态误差是指OLS估计。

Tibshirani(1996)也描述了您询问的可靠先验,他注意到在贝叶斯环境中可靠的套索回归等同于使用拉普拉斯先验。此类先验系数的中心为零(具有中心变量),并且尾部较宽-因此,使用该系数估算的大多数回归系数最终都恰好为零。如果您仔细查看下面的图片,这很清楚:拉普拉斯分布的峰值在零附近(分布质量更大),而正态分布在零附近的扩散程度更大,因此非零值的概率质量更大。强健先验的其他可能性是柯西分布或分布。Ť

使用此类先验,您更容易得出许多零值系数,一些中等大小和一些大型(长尾巴),而使用“普通先验”,您会得到更多中等大小的系数,这些系数不完全是零,而是离零也不远。

在此处输入图片说明

(图片来源Tibshirani,1996年)


Stigler,SM(1986)。统计的历史:1900年之前的不确定性的度量。麻省剑桥:哈佛大学出版社Belknap出版社。

Tibshirani,R.(1996)。通过套索进行回归收缩和选择。皇家统计学会杂志。系列B(方法论),267-288。

Gelman,A.,Jakulin,A.,Pittau,GM和Su,Y.-S. (2008)。逻辑模型和其他回归模型的信息量很少的默认先验分布。应用统计年鉴,2(4),1360-1383。

RM,诺顿(1984)。双指数分布:使用微积分找到最大似然估计量。美国统计学家,38(2):135-136。


哇,这是一个很好的解释,同时也特别感谢链接的问题,其中正则化规范直观地与模式,meadian和均值相关联,这确实为我澄清了很多!
德米特里·斯米尔诺夫

1
@Tim,柯西分布的尾巴很重,但零的概率小于正态分布。那么,它如何导致稀疏解呢?
罗伊

4

惯常观点view

从某种意义上讲,我们可以将两种正则化都视为“缩小权重”;L2最小化权重的欧几里得范数,而L1最小化曼哈顿权重。按照这种思路,我们可以推断出L1和L2的等电位分别是球形和菱形,因此L1更有可能导致稀疏解,如Bishop的模式识别和机器学习中所示

主教的*模式识别和机器学习*

贝叶斯视图👀

但是,为了了解先验与线性模型之间的关系,我们需要了解普通线性回归贝叶斯解释凯瑟琳·贝利(Katherine Bailey)的博客文章对此非常好。简而言之,我们在线性模型中假设正态分布的iid错误

ÿ=θX+ϵ

ñÿ一世一世=1个2ñϵķñ0σ

然后我们可以说我们的线性模型也具有高斯似然!的可能性为 ÿ

pÿ|Xθ;ϵ=ñθXσ

事实证明,最大似然估计器等同于在误差的正态性假设下最小化预测输出值与实际输出值之间的平方误差。

θ^MLE=精氨酸最高θ日志Pÿ|θ=精氨酸θ一世=1个ñÿ一世-θX一世2

正则化为权重

如果我们在线性回归的权重上放置非均匀先验,则后验概率(MAP)的最大估计值将为:

θ^地图=精氨酸最高θ日志Pÿ|θ+日志Pθ

正如Brian Keng的博客文章所述,如果是Laplace分布,则它等效于 L1正则化。Pθθ

同样,如果是高斯分布,则等效于 L2正则化。Pθθ

拉普拉斯vs高斯

现在我们有了另一种观点,为什么在权重上放置拉普拉斯先验更有可能引起稀疏性:因为拉普拉斯分布更集中在零附近,所以我们的权重更有可能为零。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.