问题:在变量选择上使用一个优先于另一个的优点/缺点是什么?
假设我有可能性: 其中I可以把任一先验之一: 或: 瓦特我〜π δ 0 + (1 - π )Ñ(0 ,100 )
我用来强调大多数权重为零,并在上加一个伽玛来选择'regularizing'参数。λ
但是,我的教授一直坚持认为套索版本会“缩小”系数,实际上并没有进行适当的变量选择,即相关参数甚至都过度缩小。
由于使用贝叶斯变换,我个人觉得实现套索版本更容易。实际上,有效地使用的稀疏贝叶斯学习论文甚至提供了稀疏解决方案。
问题:在变量选择上使用一个优先于另一个的优点/缺点是什么?
假设我有可能性: 其中I可以把任一先验之一: 或: 瓦特我〜π δ 0 + (1 - π )Ñ(0 ,100 )
我用来强调大多数权重为零,并在上加一个伽玛来选择'regularizing'参数。λ
但是,我的教授一直坚持认为套索版本会“缩小”系数,实际上并没有进行适当的变量选择,即相关参数甚至都过度缩小。
由于使用贝叶斯变换,我个人觉得实现套索版本更容易。实际上,有效地使用的稀疏贝叶斯学习论文甚至提供了稀疏解决方案。
Answers:
在您指定不同参数的情况下,这两种方法(LASSO与尖峰和平板)都可以解释为贝叶斯估计问题。主要区别之一是LASSO方法不会将先验点的质量设为零(即,先验参数几乎肯定为非零),而尖峰加平板的则是实质性的点质量。在零。
以我的拙见,尖峰-阶梯测试法的主要优点是它非常适合参数数量大于数据点数量的问题,并且您希望完全消除大量参数从模型。由于此方法将大点质量先于零,因此将产生后验估计,后者往往只涉及一小部分参数,从而有望避免数据的过拟合。
当您的教授告诉您前者没有执行变量选择方法时,他可能是这个意思。在LASSO中,每个参数几乎肯定是先验非零的(即,它们都在模型中)。由于在参数支持上可能性也不是零,这也意味着每个先验几乎肯定是非零的(即它们都在模型中)。现在,您可以通过假设检验和模型中的规则参数来补充它,但这将是在贝叶斯模型之上施加的附加检验。
贝叶斯估计的结果将反映数据的贡献和先验的贡献。自然地,相对于不那么集中的先验分布(例如LASSO),更紧密地集中在零附近的先验分布(例如尖峰和台阶)确实会“收缩”所得的参数估计量。当然,这种“缩小”仅仅是您指定的先验信息的影响。LASSO先验的形状意味着相对于平坦的先验,它正在将所有参数估计值朝着平均值收缩。