掷硬币时的Beta分布


12

克鲁施克(Kruschke)的贝叶斯书说,关于使用Beta分布来掷硬币,

例如,如果除了硬币没有正面和反面的知识之外,我们没有其他先验知识,那等于先前观察到一个头和一条尾巴对应于a = 1和b = 1。

为什么没有信息等于看到一头一尾-0头和0尾对我来说似乎更自然。


9
(+1)引语具有误导性,因为它邀请读者将两种非常不同的“观察”等同起来。这里使用的感觉是检查硬币本身-实际上,这意味着您了解实验装置。但是,这意味着的结论取决于对实验进行两次不同意义上的“观察”的重新解释,在两次实验中,一个结果为正面,另一个结果为正面。这种逻辑上的狡猾是明智的选择。这只能使贝叶斯方法显得任意且在逻辑上很滑,实在可惜。一种=b=1个
ub

引用是错误的:Beta(1,1)的先验没有理由。
Neil G

人们可以轻易地认为这是一个观测值的信息-半头半尾。
Glen_b-恢复莫妮卡

4
请记住本书中该段落的预期目的。对于初次应用的用户来说,这应该是一个简单的直观理由,显然不是数学上的论点,而且绝对不是声称beta(1,1)是最好的或唯一的模糊先验。在书中的其他地方,我竭尽全力表明,当存在大量数据时,模糊先验的适度变化不会对后验产生实质性影响。(当然,除了贝叶斯因素,它对先验非常敏感!)在其他著作中,我讨论了霍尔丹先验。
John K. Kruschke '16

Answers:


17

引号是“逻辑上的技巧”(很棒的表达!),如@whuber在给OP的注释中所指出的。在看到硬币有正面和反面之后,我们真正能说的唯一一件事就是“头”和“尾”这两个事件并非不可能。因此,我们可以丢弃将所有概率质量都放在“头”或“尾”上的离散先验。但是,这本身并不能导致统一的先验:这个问题更加微妙。首先让我们总结一下背景知识。我们正在考虑对概率的贝叶斯推理β-联二叉树模型结合的硬币的头,给ñ独立同分布(有条件的θ)掷硬币。θñθ当我们观察 n次抛掷 x头时:pθ|XXñ

pθ|X=ËŤ一种X+αñ-X+β

我们可以说,β分别扮演“先头数”和“先头数”(伪试验)的角色,α + β可解释为有效样本量。我们也可以使用后验均值作为先验均值α的加权平均值来进行这种解释αβα+β和样本均值xαα+βXñ

查看,我们可以考虑两个因素:pθ|X

  1. 由于我们没有关于(最大无知)的先验知识,因此我们直观地期望有效样本大小α + β很小。如果很大,那么先验知识将包括很多知识。看到此的另一种方式是指出,如果αβ是“小”相对于Xñ - X的后验概率不会在我们之前取决于很多,因为 X + α Xñ - X + β ñ - Xθα+βαβXñ-XX+αXñ-X+βñ-X。我们希望,鉴于某些数据,没有很多知识的先验必定会很快变得无关紧要。
  2. 此外,由于是先验均值,我们具有大约的分布没有先验知识 θ,我们希望μp- [Rø- [R=0.5。这是一个对称性的论点-如果我们不知道更好,就不会期望先验地将分布偏向0或1。μp[R一世Ø[R=αα+βθμp[R一世Ø[R=0.5

    Fθ|αβ=Γα+βΓα+Γβθα-1个1个-θβ-1个

    如果α = β,则 该表达式仅在附近对称。θ=0.5α=β

由于这两个原因,无论我们选择使用哪个先验(属于Beta系列-记住,共轭模型!),我们直观地期望c为“小”。我们可以看到,Beta-Binomial模型的所有三个常用的非信息先验都具有这些特征,但除此之外,它们是完全不同的。这是显而易见的:没有先验知识或“最大无知”不是科学定义,因此哪种先验表示“最大无知”,即什么是非信息先验,取决于您实际所说的“最大无知”。无知”。α=β=CC

  1. 我们可以选择一个先验条件说所有值都是等概率的,因为我们不知道更好。同样,一个对称的论点。这对应于α = β = 1θα=β=1个

    Fθ|1个1个=Γ22Γ1个θ01个-θ0=1个

    ,即,现有所用的均匀由Kruschke。更正式地说,通过写出Beta分布的微分熵的表达式,您可以看到,当α = β = 1时,该表达式最大 。现在,熵通常被解释为分布所携带的“信息量”的量度:较高的熵对应于较少的信息。因此,您可以使用这种最大熵原理来说,在Beta族内部,包含较少信息(最大无知)的先验就是这种统一先验。θ[01个]α=β=1个

  2. 您可以选择另一种观点,即OP使用的观点,并说没有信息对应于没有看到头也没有尾巴,即,

    α=β=0πθθ-1个1个-θ-1个

    我们获得这种方式的先验称为Haldane先验。函数有一个小的问题-的积分超过= [ 0 1 ]是无限的,即,不管什么标准化常数,它不能被转换成一个适当的PDF文件。实际上,Haldane先验是一个适当的pmf,这使θ = 0的概率为0.5 ,对θ = 1的概率为0.5 ,对θ的所有其他值的概率为0θ-1个1个-θ-1个一世=[01个]θ=0θ=1个θ。但是,我们不要忘了-对于连续参数,将不符合适当pdf的先验称为不当先验。如前所述,由于对贝叶斯推断而言,最重要的是后验分布,因此只要后验分布是适当的,就可以接受不适当的先验。对于霍尔丹先验,如果我们的样本至少包含一次成功和一次失败,我们可以证明后验pdf是正确的。因此,只有在观察到至少一只头和一只尾巴时,我们才可以使用Haldane。 θ

    霍尔丹先验可以认为是非信息性的,这是另一种感觉:后验分布的均值现在为 ,即正面的采样频率,它是硬币翻转问题的二项式模型的θ的频繁MLE估计 。同样,θ的可信区间对应于Wald置信区间。由于常客方法没有指定先验,因此可以说Haldane先验是非信息性的,或者对应于零先验知识,因为它导致常客会做出“相同”的推论。α+Xα+β+ñ=Xñθθ

  3. 最后,您可以使用不依赖于问题参数化的先验,即Jeffreys先验,对于Beta-Binomial模型,该先验对应于

    α=β=1个2πθθ-1个21个-θ-1个2

    因此,有效样本量为1。Jeffreys先验的优点是在参数空间的重新参数化下它是不变的。例如,统一先验将相等的概率分配给事件“头部”的概率所有值。但是,您可以根据对数奇数λ = l o g θθ事件“头”,而不是比θ。在对数奇数方面表示“最大无知”的先验是什么,即说事件“头部”的所有可能对数奇数都是等概率的?这是Haldane的先验,如这个(有点神秘)的答案所示。相反,在所有度量标准更改下,Jeffrey都是不变的。Jeffreys指出,不具有此属性的先验在某种意义上是有益的,因为它包含有关您用来对问题进行参数化的度量的信息。他的先验没有。λ=ØGθ1个-θθ

总之,对于Beta-Binomial模型中的非信息性先验,不仅有一个明确的选择。您选择什么取决于您的零先验知识和分析目标的含义。


0

pθ=0=0pθ=1个=0θpθ=ËŤ一种H+1个ñ-H+1个


我很难理解你的答案。
Michael R. Chernick

pθ=0θ=1个
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.