贝叶斯先验是否与大样本量无关?


26

在执行贝叶斯推理时,我们通过最大化似然函数以及关于参数的先验来进行操作。因为对数似然比更方便,所以我们使用MCMC 有效地最大化或以其他方式生成后验分布(使用pdf每个参数的先验和每个数据点的可能性)。ln事前+ln可能性

如果我们有大量数据,那么通过简单的数学方法,可能会淹没先验提供的任何信息。最终,这是好的,这是设计使然。我们知道,后验将收敛到具有更多数据的可能性,因为它应该这样做。

对于共轭先验定义的问题,这甚至是完全可以证明的。

有没有一种方法可以确定何时先验对给定的似然函数和样本量不重要?


3
您的第一句话不对。贝叶斯推断和MCMC算法不能使可能性最大化。
niandra82 '16

5
您是否熟悉边际可能性,贝叶斯因素,事前/事后预测分布,事前/事后预测检查?这些是您用来在贝叶斯范例中比较模型的事物的类型。我认为这个问题可以归结为,随着样本量达到无穷大,只有先验差异的模型之间的贝叶斯因子是否会收敛为1。您可能还希望搁置在似然隐含的参数空间内被截断的先验,因为这可能使目标无法收敛到最大似然估计。
Zachary Blumenfeld

@ZacharyBlumenfeld:这可以作为一个正确的答案!
2013年

更正后的形式是“最大化贝叶斯规则”吗?另外,我正在使用的模型是基于物理的,因此截断的参数空间是工作的必要条件。(我也同意您的评论可能是一个答案,您可以将其充实为@ZacharyBlumenfeld吗?)
像素

Answers:


37

这不是那么容易。数据中的信息会淹没先验信息,不仅样本量很大,而且当数据提供足够的信息以淹没先验信息时。信息量少的先验信息容易被数据说服,而信息量大的先验信息可能更具抵抗力。在极端情况下,由于先验定义不明确,您的数据可能根本无法克服(例如,某些区域的密度为零)。

回想一下,根据贝叶斯定理,我们在统计模型中使用了两种信息源,即数据外信息,先验信息和似然函数中的数据传递信息:

事前×可能性

当使用无信息的先验(或最大可能性)时,我们尝试将尽可能少的先验信息引入模型。通过提供先验信息,我们将大量信息带入模型。因此,无论是数据还是先验数据,都可以告诉我们估计参数的哪些值更合理或更可信。它们可以带来不同的信息,并且在某些情况下,每个信息都可以击败其他信息。

让我用非常基本的beta二项式模型来说明这一点(有关详细示例,请参见此处)。如果使用“不提供信息”的先验,那么很小的样本可能足以胜过它。在下面的图中,您可以看到具有不同样本数量的同一模型的先验(红色曲线),似然性(蓝色曲线)和后验(紫色曲线)。

在此处输入图片说明

另一方面,您可以根据数据的说服力获得接近真实价值的先验信息,这也很容易,但不如每周提供信息的先验信息那么容易。

在此处输入图片说明

与信息先验相比,情况与数据有很大不同(使用与第一个示例相同的数据),情况就大不相同了。在这种情况下,您需要更大的样本来克服之前的问题。

在此处输入图片说明

因此,这不仅与样本量有关,还与您的数据和先验数据有关。请注意,这是一种期望的行为,因为在使用信息先验时,我们希望在模型中潜在地包含数据不足信息,如果大样本始终丢弃先验,则这是不可能的。

由于复杂的后验-先验-先验关系,最好查看后验分布并进行一些后验预测检查(Gelman,Meng和Stern,1996; Gelman和Hill,2006; Gelman等,2004)。此外,如Spiegelhalter(2004)所述,您可以使用不同的先验条件,例如对大型效果表示怀疑的“悲观主义者”,或对估计效果乐观的“热情主义者”。比较先验与数据的不同行为可能有助于非正式地评估先验对后验的影响程度。


Spiegelhalter,DJ(2004)。将贝叶斯思想纳入保健评估。统计科学,第156-174页。

Gelman,A.,Carlin,JB,Stern,HS和Rubin,DB(2004)。贝叶斯数据分析。查普曼和霍尔/ CRC。

Gelman,A. and Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社。

Gelman,A.,Meng,XL,and Stern,H.(1996)。通过实际差异对模型适用性进行后验预测评估。统计数据:733-760。


2
很好的贡献,谢谢蒂姆。我想补充一点,即使您在一个相同的模型中(与该模型的不同参数相关),这里布置得很好的对比度也可能呈现出来。可能存在一些参数,数据可以针对这些参数提供可忽略的信息,在这种情况下,先验可能会至关重要地提供识别限制
David C. Norris

在图形的第一个3x3矩阵中,图形是否正确?后部完全平坦直到n = 25?
密歇根水务

1
@MichiganWater每个9个图样的集合在y轴上都使用相同的比例,以使最大值不会超出屏幕。因此,它们相对于拥有更多数据的情况而言是平坦的。如果您“放大”,它们将不会变平。
蒂姆

11

在执行贝叶斯推理时,我们通过结合参数先验值使似然函数最大化来进行操作。

实际上,这并不是大多数从业者认为是贝叶斯推理的东西。可以通过这种方式估算参数,但是我不会将其称为贝叶斯推断。

贝叶斯推断使用后验分布来计算竞争假设的后验概率(或概率比)。

可以通过蒙特卡洛或马尔可夫链蒙特卡洛(MCMC)技术凭经验估计后验分布。

撇开这些区别,问题是

贝叶斯先验是否与大样本量无关?

仍然取决于问题的背景和您关心的内容。

如果您关心的是给定已经非常大的样本的预测,那么答案通常是肯定的,先验与渐近无关紧要*。但是,如果您关心的是模型选择和贝叶斯假设检验,那么答案是否定的,先验问题很重要,并且其影响不会随着样本量的增加而恶化。

*这里,我假设先验不会在似然所暗示的参数空间之外被截断/删节,并且它们没有那么明确地规定在重要区域中引起接近零密度的收敛问题。我的论点也是渐近的,它伴随着所有常规警告。

预测密度

dñ=d1个d2dñd一世Fdñθθ

π0θλ1个π0θλ2λ1个λ2

πñθdñλĴFdñθπ0θλĴFØ[RĴ=1个2

θθñĴπñθdñλĴθ^ñ=最高θ{Fdñθ}θñ1个θñ2θ^ñθε>0

ñP[R|θñĴ-θ|ε=0Ĵ{1个2}ñP[R|θ^ñ-θ|ε=0

θñĴ=最高θ{πñθdñλĴ}

FddñλĴ=ΘFdθλĴdñπñθλĴdñdθFddñθñĴFddñθ

模型选择和假设检验

如果对贝叶斯模型选择和假设检验感兴趣,他们应该意识到先验效应不会渐近消失。

FdñØdË

ķñ=FdñØdË1个FdñØdË2
P[RØdËĴdñ=FdñØdËĴP[RØdËĴ=1个大号FdñØdËP[RØdË

FdñλĴ=ΘFdñθλĴπ0θλĴdθ

FdñλĴ=ñ=0ñ-1个Fdñ+1个dñλĴ
Fdñ+1个dñλĴFdñ+1个dñθFdñλ1个FdñθFdñλ2
Fdñλ1个Fdñλ2p1个
Hdñ中号=ΘHdñθ中号π0θ中号dθ
Fdñλ1个Hdñ中号Fdñλ2Hdñ中号

5

要记住的另一个问题是您可以拥有大量数据,但是关于模型中某些参数的信息仍然很少。在这种情况下,进行推理时,即使信息量适中的先验也可能非常有帮助。

举一个愚蠢的例子,假设您正在比较两组的均值,并且您有1,000,000组1的样本和10组2的样本。那么,即使您已收集了超过一百万的数据,显然具有关于组2的先验知识也可以改善推断样品。

尽管这个例子可能是微不足道的,但它开始带来一些非常重要的含义。如果我们想了解一些复杂的现象,明智的做法是收集有关我们不了解的零件的大量信息,而收集有关我们确实了解的零件的信息较少。如果我们以这种方式收集大量数据,那么由于我们拥有大量数据而抛弃先验是一个非常糟糕的选择。我们只是推迟了分析,因为我们没有浪费时间收集有关我们已经知道的事情的数据!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.