自举和贝叶斯定理也吸引了我,但是直到我从贝叶斯的角度来看它时,我对自举的理由并没有多大意义。然后-正如我在下面解释的-引导分布可以看作是贝叶斯后验分布,这使得自举背后的(a?)基本原理显而易见,并且还具有澄清所作假设的优势。下文的论点和假设的更多信息,请参见https://arxiv.org/abs/1803.06214(第22-26页)。
例如,在电子表格上的http://woodm.myweb.port.ac.uk/SL/resample.xlsx上进行了设置(单击屏幕底部的bootstrap选项卡),假设我们已经9个测量值的样本,平均值为60。当我使用电子表格生成1000个重采样并用该样本替换时,将均值四舍五入到最接近的偶数,其中82个均值为54。自举的想法是使用样本作为“假装”总体,以查看9的样本均值可能有多大的变化,因此,这表明样本均值比总体均值低6的概率(在这种情况下,基于平均值为60)的样本为8.2%。关于重采样直方图中的其他条形,我们可以得出类似的结论。
现在让我们想象一下,事实是实际总体的平均值为66。如果是这样,我们对样本平均值为60(即数据)的概率的估计为8.2%(使用上面段落中的结论, 60比假设的人口平均值66低6)。让我们这样写
P(给定平均值= 66的数据)= 8.2%
并且此概率对应于重采样分布上的x值54。相同的论点适用于0、2、4 ... 100中的每个可能的总体均值。在每种情况下,概率均来自重采样分布-但是此分布反映了均值60。
现在,我们应用贝叶斯定理。有问题的度量只能取0到100之间的值,因此将四舍五入到最接近的偶数可能会导致总体平均值为0、2、4、6,.... 100。如果我们假设先验分布是平坦的,则每个都具有2%(至1 dp)的先验概率,贝叶斯定理告诉我们
P(PopMean =给定数据66)= 8.2%* 2%/ P(数据)
哪里
P(数据)= P(PopMean = 0给定数据)* 2%+ P(PopMean = 2给定数据)* 2%+ ... + P(PopMean = 100给定数据)* 2%
现在我们可以取消2%,并记住概率之和必须为1,因为这些概率只是来自重采样分布的概率。得出的结论是
P(均值= 66)= 8.2%
记住8.2%是来自对应于54(而不是66)的重采样分布的概率,后验分布只是反映在样本均值上的重采样分布(60)。此外,如果重新采样分布在不对称是随机的意义上是对称的-在这种情况下以及许多其他情况下,我们可以将重新采样分布视为与后验概率分布相同。
这一论点做出了各种假设,主要假设是先验分布是均匀的。这些在上面引用的文章中有更详细的说明。