贝叶斯套索vs钉和板


14

问题:在变量选择上使用一个优先于另一个的优点/缺点是什么?

假设我有可能性: 其中I可以把任一先验之一: 或: 瓦特π δ 0 + 1 - π Ñ0 100

yN(Xw,σ2I)
w ^ EXP - λ | W ^ |
wiπδ0+(1π)N(0,100)π=0.9,
wiexp(λ|wi|)λΓ(1,1).

我用来强调大多数权重为零,并在上加一个伽玛来选择'regularizing'参数。λπ=0.9λ

但是,我的教授一直坚持认为套索版本会“缩小”系数,实际上并没有进行适当的变量选择,即相关参数甚至都过度缩小。

由于使用贝叶斯变换,我个人觉得实现套索版本更容易。实际上,有效地使用的稀疏贝叶斯学习论文甚至提供了稀疏解决方案。1|wi|


4
您的教授是正确的,它正在缩小相关参数,但是那又如何呢?它只会将它们缩小到对减少错误没有显着贡献的程度。以及为什么要专注于进行正确的变量选择。.不应该专注于减少(测试)错误
seanv507

对于大多数问题,我会同意。但是,对于某些问题(例如带有基因表达的癌症检测),找到哪些特征是促成因素非常重要。ps因为他是一个白痴,所以我从博士后搬走了。机器学习!!!
sachinruk '16

Spike和Slab恰好是变量选择的金标准,我也更喜欢与LASSO合作。@Sachin_ruk:也可以使用变分贝叶斯来实现尖峰和板坯的提前…
Sandipan Karmakar

@SandipanKarmakar您能否发布一个链接,引用带有变化贝叶斯的尖峰和台阶。
sachinruk

您的问题将建模[哪个先验?]和实现[变型贝叶斯]问题合并在一起。它们应分开处理。
西安

Answers:


3

在您指定不同参数的情况下,这两种方法(LASSO与尖峰和平板)都可以解释为贝叶斯估计问题。主要区别之一是LASSO方法不会将先验点的质量设为零(即,先验参数几乎肯定为非零),而尖峰加平板的则是实质性的点质量。在零。

以我的拙见,尖峰-阶梯测试法主要优点是它非常适合参数数量大于数据点数量的问题,并且您希望完全消除大量参数从模型。由于此方法将大点质量先于零,因此将产生后验估计,后者往往只涉及一小部分参数,从而有望避免数据的过拟合。

当您的教授告诉您前者没有执行变量选择方法时,他可能是这个意思。在LASSO中,每个参数几乎肯定是先验非零的(即,它们都在模型中)。由于在参数支持上可能性也不是零,这也意味着每个先验几乎肯定是非零的(即它们都在模型中)。现在,您可以通过假设检验和模型中的规则参数来补充它,但这将是在贝叶斯模型之上施加的附加检验。

贝叶斯估计的结果将反映数据的贡献和先验的贡献。自然地,相对于不那么集中的先验分布(例如LASSO),更紧密地集中在零附近的先验分布(例如尖峰和台阶)确实会“收缩”所得的参数估计量。当然,这种“缩小”仅仅是您指定的先验信息的影响。LASSO先验的形状意味着相对于平坦的先验,它正在将所有参数估计值朝着平均值收缩。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.