Answers:
简而言之,当人们对数据了解得很少/不了解数据时,将使用统一/非信息先验,因此对分析结果的影响最小(即后验推断)。
共轭分布是那些先验分布和后验分布相同的分布,而先验分布称为共轭先验。它因其代数便利而受到青睐,尤其是当似然具有指数族形式(高斯,贝塔等)的分布时。当使用吉布斯采样进行后验模拟时,这是非常有益的。
最后,假设在模型中的参数上设置了一个先验分布,但是您想添加另一个级别的复杂性/不确定性。然后,您将对上述先验的参数施加先验分布,因此命名为hyper -prior。
我认为Gelman的贝叶斯数据分析对于任何有兴趣学习贝叶斯统计数据的人来说都是一个不错的开始:)
在最高层次上,我们可以认为所有先验方法都指定了研究人员要在数据本身之外进行分析的一些信息:在查看数据之前,哪些参数值更有可能?
在贝叶斯分析的黑暗时代,当贝叶斯与常客进行斗争时,人们相信研究人员希望通过先验为分析引入尽可能少的信息。因此,有大量的研究和争论致力于理解先验如何以这种方式是“非信息性的”。今天,盖尔曼(Gelman)在贝叶斯数据分析(Bayesian Data Analysis)中说,反对非信息性先验的自动选择描述“非信息性”反映了他对先验的态度,而不是先验的任何“特殊”数学特征。(此外,在早期文献中有一个问题,即先验在多大程度上是非信息性的。我认为这对您的问题不是特别重要,但是对于从频繁主义者的角度来看该论证的一个很好的例子,请参见开头统一政治方法论的加里·金(Gary King)撰写)
“平坦”先验表示范围内所有值均等可能的统一先验。再次,关于这些值是否真的非信息性存在争论,因为以某种方式指定所有值均等可能是信息,并且可能对模型的参数化方式敏感。平坦先验在贝叶斯分析中历史悠久,可以追溯到贝叶斯和拉普拉斯。
“模糊的”先验是高度分散的,尽管不一定是平坦的,并且它表示很大范围的值是合理的,而不是将概率质量集中在特定范围附近。本质上,它是具有高方差的先验(无论您的上下文中“高”方差意味着什么)。
共轭先验具有便利的功能,当乘以适当的可能性时,它们会产生封闭形式的表达式。这样的一个例子是具有二项式似然的beta或具有泊松似然的γ。在Internet和Wikipedia上都有有用的表格。指数族在这方面非常方便。
共轭先验因其便利的特性而常常是某些问题的“默认”选择,但这并不一定意味着它们是“最佳”的,除非可以通过共轭先验来表达自己的先验知识。计算的进步意味着共轭的重要性不如从前(参见Gibbs采样与NUTS),因此我们可以更轻松地对非共轭先验进行推理。