拉索罚分为什么等于先验双指数(Laplace)?


27

我已经在许多参考文献中读取为回归参数向量套索估计相当于后模式,其中,每个所述先验分布是双指数分布(也称为拉普拉斯分布)。BBBi

我一直在试图证明这一点,有人可以充实细节吗?


@ user777我今天翻阅那本书已有一段时间了。找不到任何相关内容。
Wintermute 2015年

Answers:


30

为简单起见,我们仅考虑变量的单个观测值,使得 Y

Y|μ,σ2N(μ,σ2),

μLaplace(λ) 和不正确的先验 。f(σ)1σ>0

那么的联合密度与 Y,μ,σ2

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

取一个日志并丢弃不涉及, μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

因此,(1)的最大值将是MAP估计值,并且实际上是在重新设置\ tilde \ lambda = \ lambda \ sigma ^ 2之后的套索问题λ~=λσ2

回归的扩展很明显-将用替换为正态似然,并将上的先验值设置为独立的拉普拉斯分布的序列。μXββ(λ)


25

通过检查LASSO正在优化的数量可以明显看出这一点。

取的先验值是独立的Laplace,均值零且标度。βiτ

因此。p(β|τ)e12τi|βi|

数据模型是通常的回归假设。yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

现在减去后验对数的两倍为

k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

令,我们得到 log-后λ=σ2/τ2log

k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

的MAP估算器使上述最小化,从而使β

S=(yXβ)T(yXβ)+λi|βi|

因此的MAP估计器是LASSO。β

(在这里,我将视为有效固定的,但是您可以用它做其他事情,而仍然可以得到LASSO。)σ2

编辑:这就是我离线编写答案所得到的;我没有看到安德鲁已经发布了一个好的答案。我的确不做他没有做过的任何事情。我将暂时离开,因为它会根据给出开发的更多细节。β


1
您的答案和安德鲁的答案似乎有所不同。您的答案具有正则化器的正确形式:,而Andrew具有,在线性回归中,我们得到。λβ1λ|μ|μ=Xβ
Alex R.

2
@AlexR我认为您误解了安德鲁答案中的μ。那里的μ对应于仅具有截距的回归中的,而不对应于多元回归中的。对于较大的情况(在我的回答中要注意),可以使用相同的参数,但是在简单的情况下更容易遵循。安德鲁的答案本质上是正确的,但是并没有将所有问题都与原始问题联系在一起,因此,读者可以填写的内容很少。我认为我们的答案是一致的(可以解决与σ有关的一些细微差异)并且他完全应得的tick β0Xβ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.