2
为什么拉普拉斯事前生产稀疏解决方案?
我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。 我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。 但是为什么会发生呢? 如果需要提供更多信息或阐明我的思路,请发表评论。
在贝叶斯统计中,先验分布以概率分布的形式形式化了信息或知识(通常是主观的),这些信息或知识在看到样本之前就可用。当对参数知之甚少时,使用具有大分布的分布,而较窄的先验分布表示更大程度的信息。