可信区域和贝叶斯假设检验之间有什么联系?


38

在常客统计中,置信区间和检验之间存在紧密的联系。使用推理约在分布作为一个例子,将置信区间 包含在重要性级别上未被检验拒绝的所有值。Ñ μ σ 21 - α ˉ X ± α / 2Ñ - 1 小号/ μN(μ,σ2)1α μα

x¯±tα/2(n1)s/n
μtα

从这个意义上讲,频繁的置信区间是倒置测试。(顺便说一句,这意味着我们可以将值解释为的最小值,为此参数的空值将包含在置信区间中。我发现这可能是一种有用的方法,向了解一些统计信息的人解释真正含义。)α 1 - α ppα1αp

在阅读了贝叶斯可信区域的决策理论基础后,我开始怀疑可信区域与贝叶斯测试之间是否存在类似的联系/对等关系。

  • 有一般的联系吗?
  • 如果没有常规连接,是否存在连接的示例?
  • 如果没有一般的联系,我们怎么看?

我一直想知道的一个相关问题-有人可以将我认为是他们认为是用于实际问题的贝叶斯假设检验的“金标准”或“规范示例”,而不是玩具示例的论文指向我。我从来没有真正理解过贝叶斯假设检验,我想我会找到一个很好的例子来说明其用法。
Patrick Caldon 2012年

2
@PatrickCaldon我怀疑对此有一个“黄金论文”,因为贝叶斯假设检验是在决策理论框架中制定的(因此它太宽泛而无法在一篇论文中介绍)。MånsT的答案中提到的书提供了很好的素材,Berger的书和演讲也许也很有趣。

我相信本文ba.stat.cmu.edu/vol03is01.php可以澄清我们在此处的大部分讨论。
卡洛斯·

谢谢@Carlos!该链接目前似乎不起作用,但我想它会导致在Stern和Wechsler的Bayesian Analysis中发表您的2008年论文。我发现这很有趣!
MånsT

尊敬的MånsT:贝叶斯分析移至Euclid项目。卡洛斯教授纸是在这里:projecteuclid.org/...

Answers:


19

我设法提出了一个存在连接的示例。不过,这似乎很大程度上取决于我对损失函数的选择以及复合假设的使用。

我从一个一般的例子开始,然后是一个涉及正态分布的简单特殊情况。

一般例子

对于未知参数,令为参数空间,并考虑假设与替代项。Θ θ ∈ Θ 0 θ ∈ Θ 1 = Θ Θ 0θΘθΘ0θΘ1=ΘΘ0

令为测试函数,使用西安“贝叶斯选择 ”中的表示法(这至少是我至少惯用的一种),因此如果则拒绝并接受如果。考虑损失函数 然后,贝叶斯检验为Θ 0 φ = 0 Θ 0 φ = 1 大号θ φ = { 0 如果  φ = Θ 0θ 一个0如果  θ ∈ Θ 0  和  φ = 0 1如果  θ ∈ Θ 1  和  φ = 1 φ πX =φΘ0φ=0Θ0φ=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

取和。如果则接受零假设。1 = 1 - α Θ 0 P θ ∈ Θ 0 | X 1 - αa0=α0.5a1=1αΘ0P(θΘ0|x)1α

现在,可信区域是这样的区域,即。因此,根据定义,如果使得,可以是可信的区域仅当。 P Θ Ç | X 1 - α Θ 0 P θ ∈ Θ 0 | X 1 - α Θ Ç P Θ 0Θ Ç | X > 0ΘcP(Θc|x)1αΘ0P(θΘ0|x)1αΘcP(Θ0Θc|x)>0

如果只有我们接受零假设 -credible区域中包含的非空集。Θ 01αΘ0

一个更简单的特殊情况

为了更好地说明上述示例中的测试类型,请考虑以下特殊情况。

让与。设置,和,以便我们测试是否。θ Ñ 0 1 Θ = - [R Θ 0 = - 0 ] Θ 1 = 0 θ 0xN(θ,1)θN(0,1)Θ=RΘ0=(,0]Θ1=(0,)θ0

标准计算得出其中是标准普通cdf。Φ

P(θ0|x)=Φ(x/2),
Φ()

令等于。当时,接受。z1αΦ(z1α)=1αΘ0x/2>z1α

这等效于在对于,当时,被拒绝。x2zα.α=0.05Θ0x>2.33

如果改为使用先前的,则当时,被拒绝。θN(ν,1)Θ0x>2.33ν

评论

上面的损失函数,我们认为错误地接受原假设比错误地拒绝原假设更糟​​,乍看之下似乎有些人为。但是,在“假阴性”可能代价高昂的情况下,例如在筛查危险的传染病或恐怖分子时,它可能会大量使用。

所有可信区域都必须包含条件实际上比我希望的要强:在频繁情况下,对应关系是单个测试和单个置信区间之间,而不是单个测试之间测试和所有间隔。Θ01α1α


2
+1我将使用可信度区域而不是可信度区间

1
谢谢@Procrastinator!在编辑答案时,我将其更改为“区域”。我主要处理单峰后验的HPD区域,因此我倾向于将置信区域视为区间。:)
MånsT

12

MichaelFraijo建议,仅检查感兴趣的参数值是否包含在某个可信区域中,就是反转置信区间的贝叶斯等效项。起初我对此表示怀疑,因为对我而言,这个过程确实导致了贝叶斯测试(通常意义上),这并不明显。

事实证明,它确实如此-至少在您愿意接受某种类型的损失函数的情况下。非常感谢Zen,他提供了两篇论文的参考,这两篇论文建立了HPD区域与假设检验之间的联系:

我将在这里尝试对其进行总结,以供将来参考。与原始问题的示例类似,我将处理假设为的特殊情况其中是参数空间。

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Pereira&Stern提出了一种检验上述假设的方法,而不必将先验概率放在和Θ0Θ1

令表示的密度函数,并定义π()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

这意味着是HPD区域,可信度为。T(x)P(θT(x)|x)

当为“ small”(例如)时,Pereira-Stern检验拒绝。对于单峰后验,这意味着在后验的尾部很远,这使得该准则有点类似于使用p值。换句话说,当且仅当不包含在 HPD区域中时,才级别拒绝Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

让测试功能是,如果被接受和如果被拒绝。Madruga等。提出了损失函数 with。φ1Θ00Θ0

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

如果,则将期望损失最小化会导致Pereira-Stern检验,其中被拒绝Θ0P(θT(x)|x)<(b+c)/(a+c).

到目前为止,一切都很好。Pereira-Stern检验等效于检查是否在HPD区域中,并且是否有损失函数生成该检验,这意味着它是基于决策理论建立的。θ0

尽管有争议的部分是损失函数取决于x。尽管这样的损失函数已经在文献中出现过几次,但似乎并不被认为是非常合理的。

有关此主题的更多信息,请参见引用Madruga等人的论文列表。文章


2012年10月更新:

我对上述损失函数并不完全满意,因为它对依赖使决策比我想要的更加主观。我花了更多时间思考这个问题,最后写了一个简短的说明,今天早些时候发布在arXiv上x

让表示的后位数功能,使得。代替HPD集,我们考虑中心(等尾)间隔。可以在决策理论框架中证明使用此间隔测试是正确的,而无需依赖的损失函数qα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x))Θ0x

诀窍是将点零假设的问题重新为具有方向性结论的三决策问题。然后对两种测试和。Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

如果我们接受则让测试函数(请注意,该表示法与上面使用的相反!)。事实证明,在加权损失函数 贝叶斯测试是如果不在中心区间,则拒绝。φ=iΘi01

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

对我来说,这似乎是一个相当合理的损失函数。我在arXiv的手稿中进一步讨论了这种损失,Madruga-Esteves-Wechsler损失以及使用可信集进行测试。


2
(我这标志着作为一个社区的wiki)
MånsT

当您说“要进行Pereira-Stern检验时,我们必须使预期的后路损失最小化”,实际上,我们在任何贝叶斯决策程序中都这样做。此处的区别在于损失函数取决于数据(如您所指出的),这不是标准的。通常我们有。L:{ParameterSpace}×{Actions}R
2012年

@禅:是的,我当然说错了。感谢您指出了这一点。:)
MånsT

3
@MånsT:(+1)这是一个有趣的答案。我非常尊重您在这种情况下选择将其标记为CW的事实,但我希望您不会。:-)
红衣主教

8

在碰到这个问题之前,我碰巧阅读了您的arXiv论文,并且已经在上面写了一篇博客文章(计划于08年10月出现)。综上所述,我发现您对理论感兴趣,但也认为它太虚构而不值得推荐,尤其是。因为它似乎无法解决零位假设贝叶斯测试问题,因此传统上需要将一些先验质量放在零位参数值上。

综上所述,您上面提出的解决方案(在10月更新中)以及arXiv论文中的定理2 都不是有效的测试过程,因为采用三个值,而不是对应于接受/拒绝的两个值。同样,您在定理3中使用的损失函数(此处未复制)等同于检验单面假设,而不是点零假设。φH0:θθ0H0:θ=θ0

但是,我的主要问题是,在我看来,当是点零假设时,即且没有先验质量时,arXiv论文中的定理3和定理4 都无效。H0Θ0={θ0}


1
感谢(+1)您的评论!我非常期待阅读您的博客文章。:)正如您所指出的那样,定理3和定理4仅与复合假设有关。定理2中的 2是错印。它应该读为,在这种情况下,当时,当为在可信区间内。我将尽快在arXiv手稿中进行更改!α / 2 φ = 0 α / 2 < 分钟P Θ - 1P Θ 1θ 01α/2α/2φ=0α/2<min(P(Θ1),P(Θ1))θ0
MånsT

您是对的(+1!),我在想不平等!在arXiv文档中,中心不平等是用错误的方式写的。即,一个人应该接受 iffH0
西安,

很高兴听到:)更新的手稿(修正了Thm 2)将在星期一在arXiv上发布。我将假设在Thm 4中是点空的。Θ0
MånsT

1
只需确保在arXiv文档中阐明定理2的证明即可:显示的​​不等式是用错误的方式编写的。即一个人应该接受 iff,而不是相反! P θ &Element; Θ | X > α / 2H0P(θΘi|x)>α/2
西安

3

您可以将可信区间(或HPD区域)用于贝叶斯假设检验。我不认为这很普遍。不过,公平地说,我看不到太多东西,也没有在实践中使用正式的贝叶斯假设检验。在假设检验的建立过程中,偶尔会使用贝叶斯因数(在罗伯特的“贝叶斯核心”中受到称赞)。


1
干杯@Fraijo!您能否详细说明一下您的答案与Michael Chernick的答案有何不同?
MånsT

2
我认为使用贝叶斯因子检验假设不是“偶然的”,例如请参阅此参考资料

@MånsT在迈克尔描述的后续过程中似乎是贝叶斯因子测试。本质上,您基于假设创建了两个具有不同先验的模型,然后根据这些先验比较数据集的概率。Procrasinator发布的参考资料对此进行了快速回顾。
Fraijo 2012年

1
@Procrastinator之所以说偶尔是因为在我的行业中,很少有人使用贝叶斯方法,更不用说使用贝叶斯方法来检验假设了。我个人使用贝叶斯因子检查模型对先验的敏感性,我认为这是假设检验的一种形式。
Fraijo 2012年

1
@MånsT简短答案:不。设置一个可信区间并找出它是否包含无效假设是唯一与频度假设检验相当的直接检验。此方法有两个问题:1)很明显的事实是,在某些情况下您可以找到多个区域(例如,HPD与对称区域),以及2)测试点假设(theta = a)与贝叶斯理想参数冲突取分布(theta〜P(theta))。
Fraijo 2012年

1

可信区域就是这样一个区域,在该区域中后方密度的积分是一个指定的概率,例如0.95。形成贝叶斯假设检验的一种方法是查看参数的空假设值是否落在可信区域内。这样,我们就可以在假设检验和可信区域之间获得相似的1-1对应关系,就像常客对置信区间和假设检验所做的那样。但这不是进行假设检验的唯一方法。


在实践中是否经常使用这种临时的贝叶斯测试?
MånsT

1
@MansT我不这么认为。我认为通常贝叶斯将先验赔率放在零假设为真之后,然后基于数据构造后验赔率。如果后验几率严格反对原假设,则将其拒绝。我不是最好的人,因为我不经常进行贝叶斯推理。
Michael Chernick

2
迈克尔·谢尔纳(Michael Zellner)在其关于贝叶斯计量经济学的书中将迈克尔描述的测试归功于林德利(Lindley)。
2012年

1
是的,这些测试当然源于贝叶斯思想,但是我不确定它们是否在贝叶斯决策理论上有扎实的基础。在后一种情况下,我希望测试是从损失函数中得出的,通常涉及一个检验函数。
MånsT


-1

让我告诉我如何阅读蒂姆的答案

它基于表视图,其中列中包含假设(估计参数),行中包含观察值。

在此处输入图片说明

在第一个表中,col概率总和为1,即它们是条件概率,其条件,进入列事件的条件在底行中提供,称为“ prior”。在最后一张表中,行的总和类似地为1,在中间,您具有联合概率,即在第一张和最后一张表中找到的条件概率乘以条件的概率,即先验概率。

这些表基本上执行贝叶斯变换:在第一个表中,在每一列中提供观测值(行)的pdf,设置该假设的先验(是的,假设列是该假设下观测值的pdf),对于每个列和表,首先将其放入联合概率表中,然后将其放入假设的概率中(以观察为条件)。

正如我从蒂姆的答案中得到的(如果我错了,请纠正我),关键间隔方法将看在第一张桌子上。也就是说,一旦实验完成,我们就知道了表格的行(在我的示例中是正面还是反面,但您可能会进行更复杂的实验,例如翻转100次硬币并得到一个2 ^ 100行的表格)。频率论者扫描其列,正如我所说的,在假设冷淡的情况下(例如,硬币在我的例子中是公平的),是可能结果的分布,而拒绝那些给出非常低概率值的假设(列)观察到的行。

贝叶斯主义者首先调整概率,将cols转换为行,然后查看表3,找到观察到的结果的行。由于它也是pdf,因此他会通过实验结果行并选择最高概率的假设,直到他的95%可信度满了为止。其余假设均被拒绝。

你喜欢吗?我仍在学习中,图像似乎对我有所帮助。我相信我走在正确的道路上,因为在分析两种方法的差异时,一个著名的用户给出了相同的图片。我提出了假设选择机制的图形视图。

我鼓励大家阅读基思最后的答案,但是我的假设测试机制的图片可以立即说,常客主义者在验证当前假设时不会看另一个假设,而对高可信度假设的考虑则极大地影响了贝叶斯假设中其他假设的接受/拒绝。 analisys,因为如果您有一个假设在观察数据下出现95%的时间,那么您将立即抛出所有其他假设,无论数据在其中的拟合程度如何。让我们进行统计功效分析,该分析基于两个置信区间重叠的假设对它们进行对比。

但是,我似乎发现了两种方法之间的相似之处:它们似乎是通过P(A | B) > P(A) <=> P(B|A) > P(B)property连接的。基本上,如果A和B之间存在依赖关系,则它将在频率表和贝叶斯表中均显示为相关性。因此,进行一个假设检验与另一个假设检验相关时,它们一定要给出相同的结果。研究相关性的根源,可能会给您两者之间的联系。在我的问题中,我实际上问为什么差异而不是绝对相关?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.