克鲁施克(Kruschke)的贝叶斯书说,关于使用Beta分布来掷硬币,
例如,如果除了硬币没有正面和反面的知识之外,我们没有其他先验知识,那等于先前观察到一个头和一条尾巴对应于a = 1和b = 1。
为什么没有信息等于看到一头一尾-0头和0尾对我来说似乎更自然。
克鲁施克(Kruschke)的贝叶斯书说,关于使用Beta分布来掷硬币,
例如,如果除了硬币没有正面和反面的知识之外,我们没有其他先验知识,那等于先前观察到一个头和一条尾巴对应于a = 1和b = 1。
为什么没有信息等于看到一头一尾-0头和0尾对我来说似乎更自然。
Answers:
引号是“逻辑上的技巧”(很棒的表达!),如@whuber在给OP的注释中所指出的。在看到硬币有正面和反面之后,我们真正能说的唯一一件事就是“头”和“尾”这两个事件并非不可能。因此,我们可以丢弃将所有概率质量都放在“头”或“尾”上的离散先验。但是,这本身并不能导致统一的先验:这个问题更加微妙。首先让我们总结一下背景知识。我们正在考虑对概率的贝叶斯推理β-联二叉树模型结合的硬币的头,给ñ独立同分布(有条件的θ)掷硬币。当我们观察 n次抛掷 x头时:
我们可以说,和β分别扮演“先头数”和“先头数”(伪试验)的角色,α + β可解释为有效样本量。我们也可以使用后验均值作为先验均值α的加权平均值来进行这种解释和样本均值x。
查看,我们可以考虑两个因素:
此外,由于是先验均值,我们具有大约的分布没有先验知识 θ,我们希望μp- [R我ø- [R=0.5。这是一个对称性的论点-如果我们不知道更好,就不会期望先验地将分布偏向0或1。
如果α = β,则 该表达式仅在附近对称。
由于这两个原因,无论我们选择使用哪个先验(属于Beta系列-记住,共轭模型!),我们直观地期望且c为“小”。我们可以看到,Beta-Binomial模型的所有三个常用的非信息先验都具有这些特征,但除此之外,它们是完全不同的。这是显而易见的:没有先验知识或“最大无知”不是科学定义,因此哪种先验表示“最大无知”,即什么是非信息先验,取决于您实际所说的“最大无知”。无知”。
我们可以选择一个先验条件说所有值都是等概率的,因为我们不知道更好。同样,一个对称的论点。这对应于α = β = 1:
为,即,现有所用的均匀由Kruschke。更正式地说,通过写出Beta分布的微分熵的表达式,您可以看到,当α = β = 1时,该表达式最大 。现在,熵通常被解释为分布所携带的“信息量”的量度:较高的熵对应于较少的信息。因此,您可以使用这种最大熵原理来说,在Beta族内部,包含较少信息(最大无知)的先验就是这种统一先验。
您可以选择另一种观点,即OP使用的观点,并说没有信息对应于没有看到头也没有尾巴,即,
我们获得这种方式的先验称为Haldane先验。函数有一个小的问题-的积分超过予= [ 0 ,1 ]是无限的,即,不管什么标准化常数,它不能被转换成一个适当的PDF文件。实际上,Haldane先验是一个适当的pmf,这使θ = 0的概率为0.5 ,对θ = 1的概率为0.5 ,对θ的所有其他值的概率为0。但是,我们不要忘了-对于连续参数,将不符合适当pdf的先验称为不当先验。如前所述,由于对贝叶斯推断而言,最重要的是后验分布,因此只要后验分布是适当的,就可以接受不适当的先验。对于霍尔丹先验,如果我们的样本至少包含一次成功和一次失败,我们可以证明后验pdf是正确的。因此,只有在观察到至少一只头和一只尾巴时,我们才可以使用Haldane。
霍尔丹先验可以认为是非信息性的,这是另一种感觉:后验分布的均值现在为 ,即正面的采样频率,它是硬币翻转问题的二项式模型的θ的频繁MLE估计 。同样,θ的可信区间对应于Wald置信区间。由于常客方法没有指定先验,因此可以说Haldane先验是非信息性的,或者对应于零先验知识,因为它导致常客会做出“相同”的推论。
最后,您可以使用不依赖于问题参数化的先验,即Jeffreys先验,对于Beta-Binomial模型,该先验对应于
因此,有效样本量为1。Jeffreys先验的优点是在参数空间的重新参数化下它是不变的。例如,统一先验将相等的概率分配给事件“头部”的概率所有值。但是,您可以根据对数奇数λ = l o g (θ事件“头”,而不是比θ。在对数奇数方面表示“最大无知”的先验是什么,即说事件“头部”的所有可能对数奇数都是等概率的?这是Haldane的先验,如这个(有点神秘)的答案所示。相反,在所有度量标准更改下,Jeffrey都是不变的。Jeffreys指出,不具有此属性的先验在某种意义上是有益的,因为它包含有关您用来对问题进行参数化的度量的信息。他的先验没有。
总之,对于Beta-Binomial模型中的非信息性先验,不仅有一个明确的选择。您选择什么取决于您的零先验知识和分析目标的含义。