是否有任何例子表明贝叶斯可信区间明显不如常识性置信区间


81

最近关于置信度和可信区间之间的差异的问题使我开始重新阅读Edwin Jaynes关于该主题的文章:

Jaynes,ET,1976年。《置信区间与贝叶斯区间》,《概率论,统计推论和科学的统计理论基础》,WL Harper和CA Hooker(编),D。Reidel,Dordrecht,第1页。175; (pdf

Jaynes在摘要中写道:

...我们展示了贝叶斯和正统解对涉及置信区间的六个常见统计问题(包括基于相同推理的显着性检验)。在每种情况下,我们都发现情况恰好相反,即贝叶斯方法更易于应用,并且产生相同或更好的结果。实际上,仅当正统结果与贝叶斯结果紧密(或完全一致)时,其结果才令人满意。尚未产生相反的例子。

(强调我的)

该论文于1976年发表,所以也许情况有所发展。我的问题是,是否有一些例子表明,频繁主义者的置信区间明显优于贝叶斯可信区间(根据Jaynes的隐含挑战)?

基于错误的先验假设的示例是不可接受的,因为它们没有说明不同方法的内部一致性。


21
在相当温和的假设下,(a)贝叶斯估计程序是可以接受的,并且(b)对于某些先验,所有或几乎所有可接受的估计器都是贝叶斯的。因此,贝叶斯置信区间“产生相同或更好的结果”也就不足为奇了。请注意,我的陈述(a)和(b)是理性决策理论的频繁分析的一部分。常问者与贝叶斯人一起陪伴的地方不在于数学甚至统计程序,而在于对任何特定问题的先验意义,合理性和正确使用。
ub

1
那么,以上评论是否暗示对OP的问题的回答是“无法构建此类示例”?还是存在一些违反可采性假设的病理学例子?

1
@Srikant:好问题。我认为,开始调查的地方是存在非贝叶斯可接受的估计量的情况-不一定是“病态的”估计量,但至少有一个提供了一些机会来寻找“相反的例子”。
ub

2
通过声明贝叶斯答案和常问性答案必须使用相同的信息,我将为“不正确的先验假设...”增加一些清晰度,否则,您只是在比较两个不同问题的答案。虽然是个大问题(我的+1)
概率

3
病理学与否,可能是第一个。我非常希望看到这个示例,因为这些“病理”通常对他们来说是一个很好的学习元素
概率

Answers:


52

我之前说过,我可以回答这个问题,所以这里...

Jaynes在他的论文中有点调皮,因为没有将频繁的置信区间定义为我们可以期望统计的真实值具有较高(指定)概率的区间,因此,矛盾不足为奇如果将它们解释为真实的,则会出现。问题在于,这通常是在实践中使用置信区间的方式,因为我们经常需要一个极有可能包含真实值(假设我们可以从数据样本中推断出的值)的区间。

对我来说,关键的问题是,提出问题时,最好直接回答该问题。贝叶斯可信区间是否比常客可信区间差取决于实际询问的问题。如果问的问题是:

(a)“给我一个统计量的真实值与概率p一致的间隔”,那么看来常客实际上无法直接回答该问题(这引入了Jaynes在其论文中讨论的问题),但是贝叶斯可以,这就是为什么在Jaynes给出的示例中,贝叶斯可信区间要优于频繁主义者的置信区间。但这仅仅是因为这是常客的“错误问题”。

(b)“给我一个间隔,在该间隔中重复进行多次实验,统计的真实值将位于此类间隔的p * 100%之内”,那么常问问题的答案就是您想要的。贝叶斯方法也可以直接回答这个问题(尽管这可能不是简单的可信区间)。韦伯对这个问题的评论表明情况确实如此。

因此,从本质上讲,这是正确指定问题并正确解释答案的问题。如果要问问题(a),则使用贝叶斯可信区间;如果要问问题(b),则使用频繁性置信区间。


2
说得好,尤其是关于CI实际回答的问题。但是,在Jaynes的文章中,他确实提到了CI(以及大多数使用频率较高的程序)被设计为“长期来看”可以很好地工作(例如,您经常看到或“对于大n而言,分布近似。 ..“假设是常识性方法?),但是有许多这样的程序可以做到这一点。我认为这是经常性技术(一致性,偏差,收敛性等)可用于评估各种难以确定的贝叶斯程序的地方。n
概率

1
“ Jaynes在他的论文中有点调皮……”我认为Jaynes试图提出的观点(或我从中得出的观点)是使用Confidence Intervals来回答问题a)的次数很多。案例(我推测只有经过频频培训的人才会使用CI来回答问题a),他们会认为这是一个适当的频频答案)
可能性

2
是的,“有点顽皮”,我的意思是杰恩斯以一种相当顽皮的对抗(但也很有趣)的方式(或者至少是我的阅读方式)来表达观点。但是,如果他没有,那可能不会有任何影响。
Dikran有袋动物2011年

23

这是拉里·瓦瑟曼(Larry Wasserman)写的书中给出的一个“完美的例子”,所有统计数据都在第216页(12.8贝叶斯推理的优势和劣势)。我基本上会提供Wasserman在他的书中没有提到的内容:1)对实际发生的情况的解释,而不是抛弃主线;2)Wasserman方便地不回答的常问问题;3)证明使用相同信息计算出的等效置信度会遇到相同的问题。

在此示例中,他陈述了以下情况

  1. 的观察,X,具有采样分布:(X|θ)N(θ,1)
  2. 的先验分布(他实际使用的一般τ 2的方差,但他的图擅长于τ 2 = 1(θ)N(0,1)τ2τ2=1

然后,他证明,在此设置中使用贝叶斯95%可信区间时,当的真实值任意大时,最终覆盖率为0%。例如,他提供覆盖率的图表(p218),并通过肉眼检查,当θ的真值为3时,覆盖率约为35%。然后他继续说:θθ

...我们应该从这一切中得出什么结论?重要的是要了解常识和贝叶斯方法正在回答不同的问题。要以原则性方式将先验信念与数据结合起来,请使用贝叶斯推理。要构建具有保证长期运行性能(例如置信区间)的程序,请使用常客方法...(p217)

然后继续前进,而没有对贝叶斯方法为何表现如此糟糕的任何剖析或解释。此外,他不会从常客主义的方法中给出答案,而只是对“长期”的广泛表述,这是一种经典的政治策略(强调自己的优势+他人的劣势,但绝不会像平时一样)。

τ=1

θN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

(θ|Y)N(Y,1)X00X

θx¯=0+X2=X2

(x¯|θ)N(θ,12)

(1α)%

12X±Zα/212

(1α)%θ

cX±cZα/2

c=τ21+τ2τ2=1c=12

12X±Zα/212

p(θ)1X±Zα/2)

X=00θ=4X0θ=4。实际上,您可以证明该示例基本上等同于证明算术平均值具有无限影响函数。

τ=1τ2=1N (N=0,1,2,3,)NX0Xθ0θ0


1
感谢您的分析。在非洲,这仅是由不正确的(信息性)先验假设引起的问题的示例,而贝叶斯方法的内部一致性没有说什么呢?
Dikran有袋动物2011年

1
0θ

0X0XθθX0X0θθ
概率

10

基思·温斯坦,

编辑:为澄清起见,此答案描述了残酷的统计游戏在国王基思·温斯坦答案中给出的示例。贝叶斯和惯常论答案都使用相同的信息,即在构造间隔时忽略有关公平和不公平硬币数量的信息。如果不忽略此信息,则在构建置信区间时,常客应使用综合的Beta-二项式似然法作为抽样分布,在这种情况下,Clopper-Pearson置信区间不合适,需要进行修改。贝叶斯解决方案中应进行类似的调整。

编辑:我也澄清了切碎机皮尔逊间隔的最初使用。

编辑:las,我的alpha是错误的方法,并且我的clopper pearson间隔不正确。我对@whuber表示最诚挚的歉意,他正确地指出了这一点,但是我最初不同意并忽略了他。

使用Clopper Pearson方法的CI非常好

θ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

X=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975]X=0

因此,使用Clopper Pearson置信区间的人永远不会被斩首。观察间隔后,基本上就是整个参数空间。但是CP间隔通过将100%的覆盖率设置为95%的间隔来实现!基本上,“常客”通过给95%的置信区间进行覆盖来“欺骗”他/她被要求提供的覆盖范围更大(尽管在这种情况下谁不会作弊?如果是我,我会全部[0, 1]间隔)。如果国王要求准确的 95%置信区间,那么无论实际发生什么,这种频繁使用的方​​法都将失败(也许存在更好的方法?)。

贝叶斯区间如何?(特别是最高后骨(HPD)贝叶斯间隔)

(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776)X=0(0.224,1)X=1

11012+1×1100

0.1

0.0250.975

要引用真实的 95%置信区间,则根据定义,应该观察到的区间的某些情况(即至少一种情况)不包含参数的真实值。否则,如何证明95%的标签是合理的?称其为90%,50%,20%甚至0%的间隔不仅是有效的还是无效的?

我不认为简单地陈述“实际上意味着95%或更多”而不附加限制是令人满意的。这是因为显而易见的数学解决方案是整个参数空间,而这个问题却微不足道。假设我要获得50%的CI?如果仅限制假阴性,则仅使用此条件,整个参数空间就是有效的CI。

100%X=0100×1012+9101012+1%>95%X=1

最后,要求不确定性的间隔,然后使用我们不确定的真实值来评估该间隔似乎有些奇怪。对我来说,在置信度和可信区间上进行“更公平”的比较,似乎是在区间上给出的不确定性陈述的真相


α1α

1012α1α

1012α1α1α21θθ

你是说@基思·温斯坦的答案吗?
Whuber

@whuber,是的,我的意思是基思·温斯坦的答案。
概率

9

问题始于您的句子:

基于错误的先验假设的示例是不可接受的,因为它们没有说明不同方法的内部一致性。

是的,您怎么知道您的先验是正确的?

以贝叶斯推理系统发育为例。至少一个变化的概率与公式的进化时间(分支长度t)有关

P=1e43ut

u是替代率。

现在,您要基于DNA序列的比较来建立进化模型。本质上,您尝试估计一棵树,在其中尝试对DNA序列之间的变化量进行建模,使其尽可能接近。上面的P是给定分支上至少发生一次更改的机会。进化模型描述了任意两个核苷酸之间发生变化的机会,并且从这些进化模型中推导出估计函数,其中以p为参数或以t为参数。

您没有理智的知识,因此选择了p的平坦先验。这固有地意味着t的先验呈指数下降。(如果要在t上设置平坦的先验,甚至会更成问题。p上的隐含的先验在很大程度上取决于截断t范围的位置。)

从理论上讲,t可以是无限的,但是当您允许无限的范围时,其密度函数下的面积也等于无穷大,因此必须为先验定义一个截断点。现在,当您选择足够大的截断点时,就不难证明可信区间的两端都会上升,并且在某个点上,真实值不再包含在可信区间中。除非您对先验方法有一个很好的了解,否则不能保证贝叶斯方法等于或优于其他方法。

参考:约瑟夫·费尔森斯坦:推断系统发育,第18章

顺便提一句,我已经厌倦了贝叶斯/频率论的争论。它们都是不同的框架,也不是绝对真理。贝叶斯方法的经典例子总是来自概率计算,没有一个常客会与它们矛盾。反对贝叶斯方法的经典论证总是涉及先验的任意选择。明智的先验绝对是可能的。

一切都归结为在正确的时间正确使用这两种方法。我很少看到两种方法都正确应用的论据/比较。任何方法的假设都被低估了,并且经常被忽略。

编辑:为澄清起见,问题在于以下事实:在处理非信息先验时(在许多情况下,这是唯一可能的解决方案),基于p的估计与基于贝叶斯框架中基于t的估计不同。在用于系统发育推断的ML框架中,情况并非如此。这不是一个错误的先验问题,它是该方法固有的。


3
可能对贝叶斯统计和常客统计之间的差异感兴趣,而不会引起争吵。重要的是要了解首选方法的缺点和好处。我特别排除了先验,因为这本身不是框架的问题,而仅仅是GIGO的问题。同样的情况也适用于常客统计,例如通过假设数据的参数分布不正确。那不会批评常客主义的方法,而只是对特定方法的批评。顺便说一句,我对不适当的先验没有特别的问题。
迪克兰有袋动物协会

3
杰恩斯(Jaynes)的第一个例子:在他的头脑中,没有一个统计学家会在该数据集上使用F检验和T检验。除此之外,他将两尾检验与P(b> a)进行了比较,这与检验的假设不同。因此,他的榜样是不公平的,后来他基本上承认了这一点。除此之外,您无法比较“框架”。那我们在说什么呢?ML,REML,LS,惩罚方法...?系数,统计量,预测的间隔...?您还可以询问路德教会的服务是否等于或优于什叶派服务。他们谈论同一位神。
乔里斯·梅斯

您能否澄清一下您的数据是什么,以及要在模型中估计的参数是什么?我对此有些困惑。另外,您能否使用$$而不是$来使公式居中?字体大小现在很小。

@Srikant:Felsensteins书中的示例基于DNA进化的Jukes-Cantor模型。数据是DNA序列。您想估计序列中发生变化的概率,该概率与基于上述公式的分支长度有关。分支的长度定义为进化的时间:变化的机会越大,祖先和当前状态之间经过的时间就越长。抱歉,但是我无法仅在一篇文章中总结ML和贝叶斯系统发生推理的整个理论。费尔森斯坦为此需要半本书。
Joris Meys 2010年

我想我只是想让您澄清一下方程中的哪些变量是数据,哪些是参数,因为从您的帖子中还不清楚,尤其是对于像我这样的局外人。我仍然迷路,但我想我需要读这本书以了解更多信息。

8

频繁的置信区间限制了误报率(I类错误),并确保即使在最坏的情况下,其覆盖范围也将受置信度参数限制。贝叶斯可信度间隔没有。

因此,如果您关心的是误报并且需要限制它们,那么置信区间就是您要使用的方法。

例如,假设您有一个邪恶的国王,法院由100位臣民和妓女组成,他想与他们玩残酷的统计游戏。国王有一袋价值一万亿的公平硬币,外加一枚正面概率为10%的不公平硬币。他将进行以下比赛。首先,他将从袋子中随机均匀地抽取硬币。

然后,硬币将在100人的房间中传递,每个人都将被私下对它进行实验,然后每个人将对他们认为硬币正面概率的不确定性区间设定为95%。

给出表示假阳性的间隔的任何人(即不覆盖正面概率真实值的间隔)将被斩首。

如果我们要表达硬币重量的/ a后验/概率分布函数,那么当然是可信度区间。不管结果如何,答案始终是区间[0.5,0.5]。即使您翻转零个头或一个头,您仍然会说[0.5,0.5],因为国王抽出一枚公平的硬币的可能性更大,您有1/1024天的时间连续获得十个头,比国王还掏出了不公平的硬币。

因此,这对于朝臣和妓女们来说不是一个好主意!因为当抽取不公平的硬币时,整个房间(全部100人)将是错误的,并且所有人都会被斩首。

在这个最重要的问题是误报的世界中,我们需要绝对保证无论抽出哪种硬币,误报率都将低于5%。然后,我们需要使用置信区间,例如Blyth-Still-Casella或Clopper-Pearson ,即使在最坏的情况下,该区间也可以起作用,并且不管参数的真实值如何,至少提供95%的覆盖率。如果每个人都使用这种方法,那么无论抽出哪种硬币,最终我们都可以保证预期的错误人数不会超过五个。

因此,重点是:如果您的标准要求限制误报(或等效地,保证覆盖范围),则您必须置信区间。那就是他们的工作。可信度间隔可能是表达不确定性的一种更直观的方式,它们从频繁的分析中可能表现良好,但是它们并不能为您提出的误报提供保证范围。

(当然,如果您还关心假阴性,那么您将需要一种可以保证假阴性的方法...)


6
值得深思的是,但是这个特定的例子是不公平的,因为允许采用频繁采用的方法来考虑假阳性和假阴性成本的相对成本,但是贝叶斯方法不是。根据贝叶斯决策理论,正确的做法是给定[0,1]的间隔,因为不存在与假阴性相关的惩罚。因此,在框架的类似比较中,贝叶斯主义者也不会被斩首。但是,关于限制假阳性的问题为我提供了寻找Jaynes挑战答案的方向。
迪克兰有袋动物

1
还要注意,如果所选硬币被频繁地翻转,那么最终贝叶斯置信区间将以特定硬币正面的长期运行频率为中心,而不是前一个。如果我的生活取决于间隔的时间,那么我不会一次抛硬币!
迪克兰有袋动物

1
尽管稍微多了一点,但是这个例子是无效的,因为用来衡量成功的标准与国王提出的问题所暗示的标准不同。问题在于“无论抽出哪枚硬币”,该子句旨在触发使用有关偏向硬币稀有性的现有知识的任何方法。碰巧的是,Bayesains也可以导出边界(例如PAC边界),如果被问到的话,我怀疑答案会与Clopper-Pearson区间相同。为了公平测试,必须为两种方法提供相同的信息。
迪克兰有袋动物

1
Dikran,不需要“贝叶斯”和“常客”。它们不是一门哲学只可以兼容的一门哲学!它们是数学工具,其有效性可以在概率论的通用框架中得到证明。我的观点是,如果要求是对误报的绝对限制,则无论参数的真实值如何,那么置信区间就是实现此目的的方法。当然,我们都同意相同的概率公理,并且可以以多种方式得出相同的答案。
基思·温斯坦

1
[0.1,0.5]0.10.5100%95%
概率

0

在一些例子中,频繁主义者的置信区间明显优于贝叶斯可信区间(根据Jaynes的隐含挑战)。

θ10θ1θ

Bernardo提出了一个“参考先验”,以用作科学交流的标准[甚至是“参考可信区间”(Bernardo-客观可信区域)]。假设这是“贝叶斯”方法,那么现在的问题是:什么时候一个区间优于另一个?贝叶斯区间的频度特性并不总是最优的,但“ the”频度区间的贝叶斯性质也不总是最优的
(顺便说一下,“ the”频频区间是什么?)


我正在猜测,但是我怀疑这个答案一定会得到与其他人相同的待遇。有人会简单地认为这是一个对先验的错误选择问题,而不是贝叶斯程序固有的弱点,在我看来,这是部分逃避有效批评的问题。
红衣主教2012年

@cardinal的评论是正确的。这里的先验有一个数量级,使批评非常微弱。事先信息对常客也很重要;什么人知道先验应确定如使用什么估计和检验统计量。如果这些选择是基于错误数量级的信息,则应该预期结果会很差。成为贝叶斯或常客不会。
来宾

我的“例子”不是我回答的重要部分。但是先验的一个好的选择是什么?容易想象一个先验者的支持包含真实参数,但后验者不包含,因此常问区间更好。
斯特凡劳伦

红衣主教和客人都是正确的,我的问题明确包括“基于错误的先前假设的示例是不可接受的,因为它们没有说明不同方法的内部一致性。” 有充分的理由。频繁检验可以基于错误的假设以及贝叶斯的假设(贝叶斯框架更明确地陈述了假设);问题是该框架是否存在弱点。同样,如果真实值在先,但不是在后,则意味着观察结果排除了真实值正确的可能性!
Dikran有袋动物2012年

1
也许我应该编辑我的答案并删除我的“示例”-这不是我的答案的重要部分。我的回答主要是关于“贝叶斯方法”的含义。您如何称呼贝叶斯方法?这种方法需要选择主观先验,还是使用自动方式选择非信息先验?在第二种情况下,必须提及贝尔纳多的工作。其次,您还没有定义间隔之间的“优势”关系:您何时说一个间隔优于另一个间隔?
斯特凡洛朗
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.