是否可以从贝叶斯的角度解释引导程序?


43

好的,这是一个让我彻夜难眠的问题。

引导程序是否可以解释为近似某些贝叶斯程序(贝叶斯引导程序除外)?

我真的很喜欢贝叶斯统计的“解释”,我发现它很好地连贯并且易于理解。但是,我的引导程序过程也有一个缺点,它很简单,但是在许多情况下却提供了合理的推断。但是,如果我知道引导程序在某种意义上近似于后验分布,我将对引导更加满意。

我知道“贝叶斯引导程序”(Rubin,1981年),但是从我的角度来看,引导程序的版本与标准引导程序一样有问题。问题是在进行经典和贝叶斯自举时,您所做的模型假设非常特殊,也就是说,分布的可能值只是我已经看到的值。这些奇怪的模型假设如何仍能产生引导程序产生的非常合理的推论?我一直在寻找研究引导程序属性的文章(例如Weng,1989年),但没有找到任何令我满意的明确解释。

参考文献

唐纳德·鲁宾(1981)。贝叶斯引导程序。 安 统计员。第9卷第1期,第130-134页。

翁中星(1989)。贝叶斯Bootstrap均值的二阶渐近性质。 统计年鉴,卷。第17卷,第2期,第705-710页。


3
我刚刚写了一篇关于“引导程序作为贝叶斯模型”的博客文章(sumsar.net/blog/2015/04/…),探讨了引导程序的贝叶斯“解释”。它没有直接回答上面的问题,但我希望它可以使引导程序及其作用更加清楚。
2015年

阅读muliere和secchi(1996)贝叶斯非参数预测推理和自举技术。Thay正是您的观点!

Answers:


30

Hastie,Tibshirani和Friedman撰写的《统计学习的要素》第8.4节是“自举和贝叶斯推理之间的关系”。那可能正是您想要的。我相信这本书可以通过斯坦福大学的网站免费获得,尽管我手边没有链接。

编辑:

这是该书的链接,作者可以在网上免费获得该书:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

在页272,作者写道:

从这个意义上讲,自举分布表示参数的(近似)非参数,非信息后验分布。但是,这种引导分布很容易获得-无需正式指定先验分布,也不必从后验分布中取样。因此,我们可能会认为引导分布是“穷人”的贝叶斯后验。通过扰动数据,引导程序近似于扰动参数的贝叶斯效应,并且通常更容易执行。

在这个经过交叉验证的问题中,发现了另外一个难题,其中提到了Dvoretzky–Kiefer–Wolfowitz不等式,“显示经验分布函数均匀地收敛到概率的指数分布均匀的真实分布函数”。

因此,所有非参数引导程序都可以看作是一种渐近方法,可为我们的参数生成“(近似)非参数,非信息后验分布”,并且随着样本数量的增加,这种近似会变得“指数快速”。


3
虽然我们总是赞赏对相关材料的引用,但是如果包含该部分的简要说明,则将大大改善此答案。
2013年

1
该部分的最后一点可能会更有用:引导程序是估计参数的近似非参数,非信息后验分布。整个部分值得一读。
Fraijo

2
感谢您的链接!如果我读了Hastie等。正确的是,它们显示了非参数boostrap和贝叶斯引导程序之间的对应关系,并声称前者近似后者。他们没有写太多关于为什么引导程序(无论是否为贝叶斯方法)首先导致明智推断的文章。我希望得到的是这样的东西:“在[某些一般情况下],引导程序以[某物]且取决于[此和那]的误差来近似参数/统计的真实后验分布”。
RasmusBååth13年

感谢您帮助改善我的答案。我听到的关于引导程序为什么起作用的最清楚的解释是,您刚刚收集的样本是您在总体总数中的最佳表示。但是我还没有足够的概率论者来正式地陈述这一点。
EdM

如果我还记得的话,他们会提出这样的论点,引导一个神经网络,然后继续受到Radford Neal完全贝叶斯网络的支持。我认为这说明了一点,但不确定。
家伙

3

这是我看过的有关该主题的最新论文:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
我对本文的解释是,它描述了一种用于计算指定模型的后验分布的自举方法,该方法可以代替大都会抽样来使用。我看不到该论文讨论了非参数引导程序模型假设与贝叶斯估计之间的联系...
RasmusBååth2013年

1
它确实声称这样做。我还没有详细阅读该论文。
Frank Harrell 2013年

5
弗兰克(Frank):我读埃弗隆(Efron)的这篇论文并没有得到太多-他的所作所为只能看作是顺序重要性取样器,它从可能性开始,然后尝试到后验(这通常会起作用)。鲁宾在1981年的论文中的目的是质疑引导程序的适用性,但埃夫隆显然提出了相反的观点。David Draper于今年夏天在他的JSM课程中对其进行了修改,并得出结论认为它很糟糕,除非您能看到样本中的大多数可能性。但请参阅此处normaldeviate.wordpress.com/2013/06/12/…–
phaneron

1

自举和贝叶斯定理也吸引了我,但是直到我从贝叶斯的角度来看它时,我对自举的理由并没有多大意义。然后-正如我在下面解释的-引导分布可以看作是贝叶斯后验分布,这使得自举背后的(a?)基本原理显而易见,并且还具有澄清所作假设的优势。下文的论点和假设的更多信息,请参见https://arxiv.org/abs/1803.06214(第22-26页)。

例如,在电子表格上的http://woodm.myweb.port.ac.uk/SL/resample.xlsx上进行了设置(单击屏幕底部的bootstrap选项卡),假设我们已经9个测量值的样本,平均值为60。当我使用电子表格生成1000个重采样并用该样本替换时,将均值四舍五入到最接近的偶数,其中82个均值为54。自举的想法是使用样本作为“假装”总体,以查看9的样本均值可能有多大的变化,因此,这表明样本均值比总体均值低6的概率(在这种情况下,基于平均值为60)的样本为8.2%。关于重采样直方图中的其他条形,我们可以得出类似的结论。

现在让我们想象一下,事实是实际总体的平均值为66。如果是这样,我们对样本平均值为60(即数据)的概率的估计为8.2%(使用上面段落中的结论, 60比假设的人口平均值66低6)。让我们这样写

P(给定平均值= 66的数据)= 8.2%

并且此概率对应于重采样分布上的x值54。相同的论点适用于0、2、4 ... 100中的每个可能的总体均值。在每种情况下,概率均来自重采样分布-但是此分布反映了均值60。

现在,我们应用贝叶斯定理。有问题的度量只能取0到100之间的值,因此将四舍五入到最接近的偶数可能会导致总体平均值为0、2、4、6,.... 100。如果我们假设先验分布是平坦的,则每个都具有2%(至1 dp)的先验概率,贝叶斯定理告诉我们

P(PopMean =给定数据66)= 8.2%* 2%/ P(数据)

哪里

P(数据)= P(PopMean = 0给定数据)* 2%+ P(PopMean = 2给定数据)* 2%+ ... + P(PopMean = 100给定数据)* 2%

现在我们可以取消2%,并记住概率之和必须为1,因为这些概率只是来自重采样分布的概率。得出的结论是

P(均值= 66)= 8.2%

记住8.2%是来自对应于54(而不是66)的重采样分布的概率,后验分布只是反映在样本均值上的重采样分布(60)。此外,如果重新采样分布在不对称是随机的意义上是对称的-在这种情况下以及许多其他情况下,我们可以将重新采样分布视为与后验概率分布相同。

这一论点做出了各种假设,主要假设是先验分布是均匀的。这些在上面引用的文章中有更详细的说明。


鲁宾(Rubin)引入了诸如贝叶斯引导程序之类的东西。但是我不认为这就是您所指的。埃夫隆(Efron)引入的普通引导程序确实是一个经常使用的概念。
Michael Chernick '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.