似然比vs贝叶斯因子


61

关于使用似然比来表示针对/针对给定现象的客观证据,我颇为布道。但是,我最近了解到,在贝叶斯方法的上下文中,贝叶斯因子起着类似的作用(即主观先验与客观贝叶斯因子相结合,以产生客观更新的主观信念状态)。我现在试图理解似然比和贝叶斯因子之间的计算和哲学差异。

在计算级别上,我了解到,虽然似然比通常是使用代表每个模型各自参数化的最大似然性(通过交叉验证估计或使用AIC根据模型复杂度进行惩罚的可能性)来表示的,但贝叶斯因子显然以某种方式使用了代表每个模型在其整个参数空间上集成的可能性的可能性(即不仅在MLE处)。通常如何实际实现这种集成?是否真的只是尝试从参数空间计算成千上万个随机样本中的每一个的似然性,还是有分析方法来整合整个参数空间中的似然性?此外,在计算贝叶斯因子时,

另外,似然比和贝叶斯因子之间的哲学差异是什么(nb我并不是在询问似然比和贝叶斯方法之间的哲学差异,而是贝叶斯因子专门作为客观证据的代表)。与似然比相比,如何表征贝叶斯因子的含义?


5
您是否考虑过Wikipedia中
Henry

1
Chen,Shao和Ibrahim(2000)所著的书致力于贝叶斯因子的蒙特卡罗计算。
西安

Answers:


36

显然,贝叶斯因子以某种方式使用了表示每个模型在其整个参数空间上集成的可能性的可能性(即,不仅在MLE上)。通常如何实际实现这种集成?是否真的只是尝试从参数空间计算成千上万个随机样本中的每一个的似然性,还是有分析方法来整合整个参数空间中的似然性?

P(D|M)DM

将贝叶斯因素置于正确的位置非常重要。例如,当您有两个模型,并且从概率转换为几率时,贝叶斯因子就像先验信念的算子一样起作用:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

真正的区别在于,似然比的计算成本较低,并且从概念上讲更容易指定。MLE处的可能性分别只是贝叶斯因子分子和分母的点估计。像大多数常客主义的结构一样,它可以看作是贝叶斯分析的特例,其人为的先验很难做到。但主要是因为它在分析上易于处理且易于计算(在出现近似贝叶斯计算方法之前的时代)。

在计算上要点是:您将在几乎任何实际感兴趣的情况下,使用大规模的蒙特卡洛程序在贝叶斯设置中评估不同的似然积分。如果假设某些分布,并且有一些假设,则可以使用某些专门的模拟器(例如GHK),并且如果进行这些假设,则有时可以找到存在易分析的问题,并且存在对贝叶斯因子进行完全分析的问题。

但是没有人使用这些。没有理由。借助优化的Metropolis / Gibbs采样器和其他MCMC方法,以完全数据驱动的方式解决这些问题并以数字方式计算积分是完全容易处理的。实际上,人们经常会分层进行此操作,并进一步将结果整合到与数据收集机制,不可忽略的实验设计等相关的元优先级上。

对于这方面的更多信息,我推荐一本书贝叶斯数据分析。尽管作者安德鲁·盖尔曼(Andrew Gelman)似乎不太关心贝叶斯因素。顺便说一句,我同意盖尔曼。如果要使用贝叶斯方法,请充分利用后验。使用贝叶斯方法进行模型选择就像对其进行障碍一样,因为模型选择是一种微弱且几乎无用的推理形式。如果可以的话,我宁愿知道模型选择的分布情况...谁在乎不必将其量化为“模型A优于模型B”这类语句?

另外,在计算贝叶斯因子时,是否像对似然比那样对复杂性进行校正(自动通过交叉验证似然估计或通过AIC分析)?

M1M2d1d2d1<d2N

B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

我对这个推论和SylviaFrühwirth-Schnatter 的《有限混合和马尔可夫切换模型》一书的讨论都很熟悉,但是可能有更直接的统计资料更深入地研究了其基础的认识论。

我对这些细节还不够了解,无法在此处提供,但我相信这与AIC的推导之间存在着相当深的理论联系。Cover和Thomas撰写的《信息理论》书至少暗示了这一点。

另外,似然比和贝叶斯因子之间的哲学差异是什么(nb我并不是在询问似然比和贝叶斯方法之间的哲学差异,而是贝叶斯因子专门作为客观证据的代表)。与似然比相比,如何表征贝叶斯因子的含义?

维基百科的文章对“解释”部分不讨论这个(出证据规模杰弗里斯的实力尤其是图表)的一个好工作。

像往常一样,除了贝叶斯方法和常客方法(您似乎已经熟悉)之间的基本区别之外,没有太多的哲学方面的东西。

最主要的是,似然比在荷兰书中并不连贯。您可以构思一些场景,其中从似然比进行模型选择的推断将导致人们接受输掉的赌注。贝叶斯方法是连贯的,但是在先验操作上可能非常差,必须主观选择。权衡..权衡...

FWIW,我认为这种重参数化的模型选择不是很好的推论。我更喜欢贝叶斯方法,并且我更倾向于将它们组织起来,并且我希望推断可以以全部后验分布为中心,如果这样做在计算上完全可行的话。我认为贝叶斯因子具有一些简洁的数学特性,但作为贝叶斯本人,我对它们没有印象。它们掩盖了贝叶斯分析的真正有用的部分,即它迫使您公开地处理先验知识,而不是一味将其扫在脑后,并允许您对全部后验者进行推断。


“像往常一样,除了贝叶斯方法和常客方法(您似乎已经熟悉)之间的基本区别之外,没有太多哲学上的东西。主要是似然比检验……”澄清一点,我没有我们不打算将贝叶斯因子与似然比检验进行比较,而是希望自己对似然比进行比较,而没有频繁/零假设检验。
迈克·劳伦斯

根据上面的澄清:因此,在我看来,BF和LR之间的最大区别在于,正如您所说,前者可以自动校正复杂度,但是需要大量计算,而后者需要少得多的计算却需要显式校正模型复杂性(使用计算速度更快的AIC或使用计算成本更高的交叉验证)。
迈克·劳伦斯

抱歉,似然比测试是一个错字,应该是似然比。我认为您基本上是正确的,但您仍然没有看到更大的可能性,即似然比只是一个点估计。仅当潜在概率分布在MLE附近达到二次近似时,它才有用。贝叶斯因子不需要关心像这样的渐近分布特性,因此它特别笼统。它包含基于MLE的模型选择推断。
2012年

1
换句话说,MLE可以被视为最大的后验估计量(MAP),只是具有不适当的先验(当积分允许这样做时),而MAP是更引人注目的点估计,因为它结合了先验信息。现在,不只是选择后验的方式...为什么不根据后验的先验概率来组合后验的所有值?它不会为您提供参数的点估计,但大多数情况下,人们并不真正希望得到点估计。如果可以承受的话,参数分布总是比点估计更有用
2012年

11

在理解似然比和贝叶斯因子之间的差异时,更详细地考虑贝叶斯因子的一个关键特征很有用:

贝叶斯因素如何设法自动说明基础模型的复杂性?

关于这个问题的一个观点是考虑确定性近似推断的方法。变分贝叶斯就是这样一种方法。它不仅可以大大降低随机近似的计算复杂性(例如,MCMC采样)。可变贝叶斯还可以直观地了解构成贝叶斯因素的原因。

首先回想一下,贝叶斯因子基于两个竞争模型的模型证据,

BF1,2=p(dataM1)p(dataM2),

其中必须通过复杂的积分来计算各个模型证据:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

p(θdata,Mi)

q(θ)p(θdata,Mi)

F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

q(θ)p(θdata,Mi)F

现在,我们可以回到最初的问题,即贝叶斯因子如何自动平衡所涉及模型的拟合优度和复杂性。事实证明,负自由能可以重写为:

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

第一项是近似后验条件下预期数据的对数似然性;它代表模型的拟合优度(或准确性)。第二项是近似后验和先验之间的KL散度;它表示模型的复杂性,认为较简单的模型与我们先前的观点更为一致,或者认为不必扩展太多的简单模型即可容纳数据。

对数模型证据的自由能近似表明,模型证据在对数据建模(即拟合优度)和保持与我们先前的一致性(即简单性或负复杂性)之间进行了权衡。

因此,贝叶斯因子(与似然比相反)表示两个竞争模型中的哪一个在提供简单而准确的数据解释方面更好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.