首先让我解释一下共轭先验是什么。然后,我将使用您的特定示例解释贝叶斯分析。贝叶斯统计包括以下步骤:
- 定义合并您对参数的主观信念的先验分布(在您的示例中,所关注的参数是左撇子的比例)。先验可以是“非信息性的”或“信息性的”(但是没有先验的信息,请参见此处的讨论)。
- 收集资料。
- 使用贝叶斯定理用数据更新您的先验分布,以获得后验分布。后验分布是一种概率分布,表示看到数据后您对参数的更新信念。
- 分析后验分布并总结(均值,中位数,标准差,分位数……)。
所有贝叶斯统计量的基础是贝叶斯定理,即
posterior∝prior×likelihood
在您的情况下,可能性是二项式的。如果先验和后验分布在同一家族中,则先验和后验称为共轭分布。Beta分布是共轭先验,因为后验也是β分布。我们说β分布是二项式似然的共轭族。共轭分析很方便,但在现实世界中很少发生。在大多数情况下,必须通过MCMC在数字上找到后验分布(使用Stan,WinBUGS,OpenBUGS,JAGS,PyMC或其他程序)。
如果先验概率分布未积分为1,则称为不正确先验;如果它确实积分为1,则称为适当先验。在大多数情况下,不正确的先验不会对贝叶斯分析造成重大问题。不过,后验分布必须正确,即,后验必须整合为1。
这些经验法则直接遵循贝叶斯分析过程的性质:
- 如果先验信息不足,则后验很大程度上取决于数据(后验是数据驱动的)
- 如果先验是有益的,则后验是先验和数据的混合
- 先验知识越丰富,那么“改变”信念所需的数据就越多,可以这么说,因为后验在很大程度上是由先验信息驱动的
- 如果您有大量数据,则数据将控制后验分布(它们将使前验分布不堪重负)
可以在此帖子中找到有关beta分发的一些可能的“信息性”和“非信息性”先验的出色概述。
说你的在先β是Beta(πLH|α,β),其中是左撇子的比例。要指定先验参数和,了解beta分布的均值和方差非常有用(例如,如果您希望您的先验参数具有一定的均值和方差)。平均值是。因此,每当,平均值为。Beta分布的方差为πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)。现在,方便的事情是您可以将α和β视为先前观察到的(伪)数据,即大小为n e q = α + β的(伪)样本中的α左撇子和β右撇子。所述乙Ë 吨一个(π 大号ħ | α = 1 ,β = 1 )的分布是均匀的(的所有值π 大号ħneq=α+βBeta(πLH|α=1,β=1)πLH 是同样的可能性),相当于观察到两个人,其中一个是左撇子,另一个是右撇子。
后验贝塔分布简单为Beta(z+α,N−z+β),其中N是样本的大小,z是样本中左撇子的数目。的后验均值πLH因此是(z+α)/(N+α+β)。因此,要找到后验β分布的参数,我们只需将z左撇子添加到α和N−z右旋为β。后验方差为(z+α)(N−z+β)(N+α+β)2(N+α+β+1)。请注意,信息量高的先验信息也会导致后验分布的变化较小(下图很好地说明了这一点)。
在您的情况下,z=2且N=18并且您的先验是无意义的制服,因此α=β=1。因此您的后验分布为Beta(3,17)。的后验均值是π¯LH=3/(3+17)=0.15。这是一张图表,显示了先验,数据的可能性和后验
您会看到,因为您的先验分布没有信息,所以后验分布完全由数据驱动。还绘制了后验分布的最高密度区间(HDI)。想象一下,将后验分布放在2D盆地中,并开始填充水,直到95%的分布在水线以上。水线与后部分布相交的点构成了95%-HDI。HDI内部的每个点比外部的任何点都具有更高的概率。同样,HDI始终包括后验分布的峰值(即众数)。HDI与等尾95%可信区间不同,后者排除了后尾各尾2.5%的距离(请参见此处)。
对于第二项任务,要求您考虑到5-20%的人口惯用左撇子的信息。有几种方法可以做到这一点。最简单的方法是说先前的beta分布应具有0.125的平均值,即0.05和0.2的平均值。但是,如何选择先验β分布的α和β?首先,您希望先验分布的均值是等效样本大小n e q的伪样本中的0.125。更一般而言,如果您希望您的先验具有伪样本大小为n e q的均值mneqmneq,相应的α和β值为:α=mneq和β=(1−m)neq。现在剩下要做的就是选择伪样本大小neq,它确定您对先验信息的信心。假设您非常确定自己的先验信息,并设置neq=1000。您的先验分布的参数为thereore α=0.125⋅1000=125和β=(1−0.125)⋅1000=875。后验分布是Beta(127,891)具有大约平均0.125,其几乎是相同的先验均值0.125。先验信息占主导地位(请参见下图):
neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
另请参阅此参考资料,以简短了解贝叶斯推理和简单分析。有关共轭分析(尤其是二项式数据)的详细介绍,请参见此处。在这里可以找到有关贝叶斯思想的一般介绍。有关贝叶斯统计方面的更多幻灯片,请点击此处。