Stan的开发人员在其Wiki页面上指出:
我们不喜欢的一些原理:不变性,杰弗里斯,熵
相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖于采样贝叶斯方法,并且是那种高兴地明白了为什么是二项式可能性的不错选择。
Stan的开发人员在其Wiki页面上指出:
我们不喜欢的一些原理:不变性,杰弗里斯,熵
相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖于采样贝叶斯方法,并且是那种高兴地明白了为什么是二项式可能性的不错选择。
Answers:
当然,这是一个由各种各样的人组成的集合,这些人聚集在一起并撰写Wiki。我总结一下我所了解/理解的一些评论:
基于计算方便性选择先验是不够的。例如,仅因为允许共轭更新而使用Beta(1/2,1/2)并不是一个好主意。当然,一旦您得出结论,它对于所处理的问题类型具有良好的属性,那很好,您也可以做出使实施容易的选择。有很多示例,其中方便的默认选择被证明是有问题的(请参见启用Gibbs采样的Gamna(0.001,0.001))。
使用Stan-与WinBUGS或JAGS不同-(条件)结合先验没有特别的优势。因此,您可能会略微忽略计算方面。并非完全如此,因为具有大量拖尾的先验(或不合适的先验)并且数据不能很好地识别参数,您会遇到问题(这不是Stan特定的问题,但是Stan善于识别这些问题并警告用户而不是幸福地采样掉)。
杰弗里斯(Jeffreys)和其他“低信息”先验有时可能不适当,或者在高维度(不要介意派生它们)和稀疏数据中太难理解。可能只是这些问题经常给作者带来麻烦,以致于他们永远无法接受。一旦您从事某项工作,您就会学到更多并感到自在,因此偶尔会出现观点反转。
在稀疏数据设置中,先验确实很重要,如果您可以指定参数的完全不可信的值是不可信的,那么这会很有帮助。这激发了信息量较弱的先验的想法-并不是真正意义上的充分先验先验,而是那些最支持合理价值的先验。
实际上,您可能想知道,如果我们拥有大量能够很好地识别参数的数据(一个人可能只使用最大似然性),那么为什么一个人会不愿意提供先验信息。当然,有很多原因(避免病理,获得后代的“真实形状”等),但是在“大量数据”的情况下,似乎没有反对弱信息先验的真实理由。
他们没有为此提供任何科学/数学依据。大多数开发人员不使用这种先验,他们更喜欢使用更务实/启发式的先验,例如具有较大差异的正常先验(在某些情况下可能是有益的)。但是,在他们开始研究此主题之后,他们乐于使用基于熵(KL散度)的PC先验,这有点奇怪。