贝叶斯:似然函数的奴隶?


62

拉里·瓦瑟曼(Larry Wasserman)教授在他的《所有统计》一书中提出了以下示例(11.10,第188页)。假设我们有一个密度,使得,其中是已知的(负,可积)函数,而归一化常数是未知的ff(x)=cg(x)c > 0gc>0

我们对无法计算情况感兴趣。例如,在非常高维的样本空间上,可能是pdf。c=1/g(x)dxf

众所周知,即使未知,也有一些模拟技术可让我们从采样。因此,难题是:我们如何从这样的样本中估算?fcc

Wasserman教授描述了以下贝叶斯解决方案:让为先验条件。可能性为 因此,后 不依赖于样本值。因此,贝叶斯不能使用样本中包含的信息来推断。πc

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
X 1... X Ñ Ç
π(cx)cnπ(c)
x1,,xnc

瓦瑟曼教授指出:“贝叶斯是似然函数的奴隶。当似然出错时,贝叶斯推论也将如此”。

我对其他堆垛机的问题是:关于这个特定示例,贝叶斯方法有什么问题(如果有)?

PS正如Wasserman教授在回答中所解释的那样,该示例归因于Ed George。


10
这个例子听起来像是进行数值积分的一种奇怪的无效方法,而不像任何贝叶斯分析那样。
ub

2
你怎么能说贝叶斯对一无所知。如果是这种情况,我们将有。显然不是。π C ^ | X α π C ^ cπ(c|x)π(c)
概率

2
我不太了解这个例子。如果不依赖于那么数据不具有信息性就不足为奇了,那么仅取决于的形式,并且对于样本都是相同的吗?我显然缺少一些微妙的(或不是那么微妙的)要点。c c g a n yg()ccg()any
迪克兰有袋动物博物馆,2012年

我构想出一种正式的贝叶斯方法,可以克服@Zen的反对意见,并不禁忌西安的兴趣不足,最终只能评估数值积分的准确性。
phaneron 2012年

1
一个很好的跟进拉里的博客:normaldeviate.wordpress.com/2012/10/05/...

Answers:


43

我的论文(仅在互联网上发布)“关于Larry Wasserman的例子” [ 1 ]以及我,Wasserman,Robins和Wasserman博客的其他一些评论者之间的博客交流中对此进行了讨论:[ 2 ]

简短的答案是Wasserman(和Robins)通过暗示高维空间中的先验“必须”具有以下特征来产生悖论:暗示所关注的参数是先验已知的,或者具有明确的相关性(选择偏差)几乎可以肯定不存在。实际上,明智的先验将不具有这些特征。我正在写一篇总结性博客文章以将其汇总。2007年有一篇出色的论文,其中显示了Hameling和Toussaint提出的Wasserman和Ritov考虑的明智贝叶斯方法:“ Robins-Ritov问题的贝叶斯估计” [ 3 ]


12
Sims教授,谢谢您的贡献。你同意我的回答吗?PS现在,我们在SE上发布了诺贝尔奖。那个怎么样?nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html

1
@ChrisSims Sims教授感谢您的来信,并用您非常权威的回答吹走了我的答案!
迈克尔·切尔尼克

4
我对这个答案的投票总数最高(截至目前)感到震惊。正如Wasserman教授指出的那样,Sims教授的答案与禅宗提出的难题完全不同。我推断出,大多数人在没有阅读和理解Sims提供的链接的情况下投票了。
青色2012年

3
青色,您可以在Link [1],WassermanComment.pdf,第23页中找到Sim教授对此难题的评论。第十节第七节。后记2.
madprob 2012年

43

特别是在这个示例中,我认为没有什么吸引力。作为对贝叶斯和似然法的潜在批评。... 已知常数,等于 如果是唯一的“在画面未知”,给定一个样本,再有就是这个问题没有统计的问题,我不同意存在估计的。上也无先验(除上述值的狄拉克质量外)。这至少不是一个统计问题,而是一个数字问题。1 /XX d X Ç X 1... X Ñ Ç Çc

1/Xg(x)dx
cx1,,xncc

可以通过(频率)密度估计使用样本来提供的数字近似值仅仅是出于好奇。不要批评其他统计方法:我也可以使用贝叶斯密度估计... cx1,,xnc


4
如果可能性是真实的条件密度,则不可能以适当的先验开始并以不正确的后验结束!
西安

如何定义未知常数​​和参数之间的差异?在《概率论简介》中,de Finetti考虑了引起的不确定性。de Finetti会考虑与有何不同吗?如果不是,观察数据改变他对不确定性?还涉及未知的常数/参数。假设Alice选择一个常数并输入,。尽管是一个未知常数,Bob可以得出先验知识,并使用来了解Ç π X 1X 2... X Ñ Ç Ç - [R X = - [R Ñ Ö ř 100 c ^ 1 C ^ C ^ X Ç ÇπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc。为什么Wasserman的示例中的与众不同?c
madprob 2012年

3
我不是de Finetti,所以我不能为他回答!
2012年

3
您的示例是统计性的:我得到的观测值的基本分布受未知参数c的控制。拉里(或埃德(Ed)!)的例子不是统计性的:样本的分布是完全已知的,并且不受未知参数c的驱动。Zen的答案进一步说明了这一点:您不能写而不以悖论结尾,因为只有一个可能的c值。f(x1,,xn|c)
西安

40

我同意这个例子很奇怪。我的意思是,这确实是一个难题。(该示例实际上是由于Ed George造成的。)

确实提出了一个问题,即“知道”意味着什么。克里斯蒂安说是已知的。但是,至少从纯粹主观概率的角度来看,您不知道它仅仅是因为原则上可以知道它。(假设您无法进行数值积分。)主观贝叶斯将所有内容视为具有分布的随机变量,包括。çcc

无论如何,本文

A. Kong,P. McCullagh,X.-L. Meng,D。Nicolae和Z. Tan(2003),《蒙特卡洛积分统计模型的理论》J。Royal Statistic。Soc。B卷 65,没有 3,585–604

(通过讨论)对待本质上相同的问题。

克里斯·西姆斯(Chris Sims)在回答中所提到的例子具有截然不同的性质。


3
Wasserman教授谢谢您来讲解您的示例及其历史。我是斯坦福大学的研究生,与埃德·乔治(Ed George)重叠。斯坦福大学统计部当时不是贝叶斯主义者,尽管在埃弗隆和斯坦因的支持下,我们处于经验贝叶斯的边缘。不过,该部门非常开放,丹尼斯·林德利(Dennis Lindley)在贝叶斯统计学上开设了研究生课程,而这个课程我是一个暑假。埃德以某种方式转变为成熟的贝叶斯主义者,甚至撰写了有关吉布斯假人抽样的论文(尽管当然没有该标题)。
Michael Chernick

1
我拥有并喜欢阅读您的小书“全部统计”和“全部非参数”。
Michael Chernick

1
也许不是巧合,我由Kong等人讨论了这篇论文。(2003年),大多数人对在度量上而不是分布上使用组转换的效率持负面态度。最近,小李让我对论文有了更积极的认识……
西安

1
“假设您不能进行数值积分。” 我知道,尽管付出了很大的努力,但逻辑不确定性(这只是一个例子)已经使分析无法进行分析。
约翰·萨尔瓦捷

cgg(x1)g(x2)g

23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

这是不可能的:我们知道,如果我们以适当的先验开始,则后验对每个可能的样本都不会不合适(在一组无效的先验预测概率内可能是不正确的)。


+

1
嗨,迈克尔。当然可以:Gamma,对数正态等,等等。我不知道这与答案有何关系。可能我不明白您的意思。
2012年

好吧,我很难理解你的论点。您说f的条件密度仅存在一个c,但事实并非如此。我不知道为什么这种可能性的表达式是无效的,以及如何通过假设适当的先验并以某种方式表明它导致不正确的后验分布来通过矛盾得到证明。
Michael Chernick

在我看来,问题的症结在于数据确实独立于c并且不包含有关c的信息。我认为您可以说存在一个涉及c的似然函数,但这种可能性不能作为c的函数最大化。对于c的每种选择,我认为都有一个f = cg。
Michael Chernick

4
任何适当的先验都可以,在您的示例中也可以。我同意这是显示问题的一种有用方法。我的想法更多是,先验不是基于知识。因为您知道所以只有一个先验与此信息一致。这是狄拉克三角洲函数。在逻辑上不正确地使用任何其他先验。有点像说当不独立于给定g(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
概率

11

这个例子有点奇怪和人为。可能性出现偏差的原因是因为g是已知函数。唯一未知的参数是c,它不是可能性的一部分。另外,由于已知g,因此数据不提供有关f的信息。您何时在实践中看到这样的事情?因此,后验与先验成正比,关于c的所有信息都在先验。

好的,请考虑一下。频繁使用者使用最大可能性,因此频繁使用者有时也依赖于可能性函数。好吧,常客可以用您可能会说的其他方式估算参数。但是这个成熟的问题只有一个参数c,并且关于c的数据中没有信息。由于g是已知的,因此不存在与可从数据周期中收集的未知参数有关的统计问题。


谢谢迈克尔。奇怪的情况,不是吗?Wasserman教授提出了以下估算:取密度任何(频率)一致估计量(例如,某种内核估计量)。选择任意点并注意是的一致估计量。cf^fxc^=f^(x)/g(x)c
禅宗

4
@Zen好吧,让我们举个例子。为什么要收集任何数据?我们知道g。因此,我们可以对其进行数值积分,从而将c确定为所需的任意精度,而无需进行任何估算!假设我们无法计算c,这意味着即使我们知道g是x的函数,我们也无法对其进行积分!我认为他的榜样很虚弱,论据也很弱,而且我一般都喜欢他的书。
Michael Chernick

11

具有讽刺意味的是,进行贝叶斯计算的标准方法是使用MCMC样本的频度分析。在此示例中,我们可能会认为与我们要计算的边际可能性密切相关,但是从试图尝试也以贝叶斯方式进行计算的意义上,我们将成为贝叶斯纯粹主义者。c

这是不常见的,但是可以在贝叶斯框架中进行此积分。这包括在函数上放置先验值(实际上是高斯过程),以在某些点上评估函数,对这些点进行条件化,并计算上的后验值的积分。在这种情况下,可能性包括在多个点上评估,但否则未知,因此,可能性与上述给出的可能性完全不同。该方法已在本文http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdf中进行了演示g()g()g()g()

我认为贝叶斯方法没有任何问题。书面形式的可能性将当作处处已知。如果真是这样,那么这个问题将没有统计方面。如果假设未知,那么在有限的点上,贝叶斯方法就可以工作。g()g()


感到惊讶的是,它没有更多的赞誉。这成为问题的核心,这是一个模糊的断言,即您“知道”一个函数是什么,因为您可以随时对其进行评估。我认为说“知道”一个函数的更合适标准是评估函数上任何连续线性函数的能力。
Nick Alger 2012年

@尼克·阿尔格(Nick Alger):人们对likley失去了兴趣。我不赞成,因为我不相信它是贝叶斯-集合D中的xi(xi,f(xi))是指研究中观察到的xi还是由它们随机生成的xi?如果是第一个,那就是贝叶斯,但是很容易用几秒钟的计算时间(因此无法正常工作)用简单的MC击败,或者不是贝叶斯(没有数据条件)。
phaneron 2012年

-2

我们可以最大可能范围内的定义的已知,(类似于数据允许失踪是基准数据的扩展观察,但丢失),包括NULL(无生成的数据)。

假设您具有适当的先验 现在为x定义数据模型

π(c)=1c2I[1,)(c).

如果c=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {对于任何一个}

否则faXaC(xac)=0

因此,后验将是0或1(适当),但是上述数据模型的似然性不可用(因为您无法确定数据模型中所需的条件。)

所以你做ABC。

从前面画一个“ c”。

现在 通过一些数值积分近似,如果近似,则保持“ c” –“ c” <epsilon。(g(x)dx)1

保留的“ c”将是真实后验的近似值。

(近似值的精度将取决于ε和对该近似值进行条件调整的充分性。)


-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
xf(xc)π(c)dci=1ng(xi)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.