我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。
我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。
但是为什么会发生呢?
如果需要提供更多信息或阐明我的思路,请发表评论。
我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。
我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。
但是为什么会发生呢?
如果需要提供更多信息或阐明我的思路,请发表评论。
Answers:
拉普拉斯本人发现了拉普拉斯先验分布与中位数(或L1范数)的关系,他发现使用这种先验估计的是中位数而不是正态分布的均值(请参阅Stingler,1986或Wikipedia)。这意味着具有拉普拉斯误差分布的回归估计中位数(例如分位数回归),而正态误差是指OLS估计。
Tibshirani(1996)也描述了您询问的可靠先验,他注意到在贝叶斯环境中可靠的套索回归等同于使用拉普拉斯先验。此类先验系数的中心为零(具有中心变量),并且尾部较宽-因此,使用该系数估算的大多数回归系数最终都恰好为零。如果您仔细查看下面的图片,这很清楚:拉普拉斯分布的峰值在零附近(分布质量更大),而正态分布在零附近的扩散程度更大,因此非零值的概率质量更大。强健先验的其他可能性是柯西分布或分布。
使用此类先验,您更容易得出许多零值系数,一些中等大小和一些大型(长尾巴),而使用“普通先验”,您会得到更多中等大小的系数,这些系数不完全是零,而是离零也不远。
(图片来源Tibshirani,1996年)
Stigler,SM(1986)。统计的历史:1900年之前的不确定性的度量。麻省剑桥:哈佛大学出版社Belknap出版社。
Tibshirani,R.(1996)。通过套索进行回归收缩和选择。皇家统计学会杂志。系列B(方法论),267-288。
Gelman,A.,Jakulin,A.,Pittau,GM和Su,Y.-S. (2008)。逻辑模型和其他回归模型的信息量很少的默认先验分布。应用统计年鉴,2(4),1360-1383。
RM,诺顿(1984)。双指数分布:使用微积分找到最大似然估计量。美国统计学家,38(2):135-136。
从某种意义上讲,我们可以将两种正则化都视为“缩小权重”;L2最小化权重的欧几里得范数,而L1最小化曼哈顿权重。按照这种思路,我们可以推断出L1和L2的等电位分别是球形和菱形,因此L1更有可能导致稀疏解,如Bishop的模式识别和机器学习中所示:
但是,为了了解先验与线性模型之间的关系,我们需要了解普通线性回归的贝叶斯解释。凯瑟琳·贝利(Katherine Bailey)的博客文章对此非常好。简而言之,我们在线性模型中假设正态分布的iid错误
然后我们可以说我们的线性模型也具有高斯似然!的可能性为
事实证明,最大似然估计器等同于在误差的正态性假设下最小化预测输出值与实际输出值之间的平方误差。
如果我们在线性回归的权重上放置非均匀先验,则后验概率(MAP)的最大估计值将为:
正如Brian Keng的博客文章所述,如果是Laplace分布,则它等效于 L1正则化。
同样,如果是高斯分布,则等效于 L2正则化。
现在我们有了另一种观点,为什么在权重上放置拉普拉斯先验更有可能引起稀疏性:因为拉普拉斯分布更集中在零附近,所以我们的权重更有可能为零。