显然,贝叶斯因子以某种方式使用了表示每个模型在其整个参数空间上集成的可能性的可能性(即,不仅在MLE上)。通常如何实际实现这种集成?是否真的只是尝试从参数空间计算成千上万个随机样本中的每一个的似然性,还是有分析方法来整合整个参数空间中的似然性?
P(D|M)DM
将贝叶斯因素置于正确的位置非常重要。例如,当您有两个模型,并且从概率转换为几率时,贝叶斯因子就像先验信念的算子一样起作用:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
真正的区别在于,似然比的计算成本较低,并且从概念上讲更容易指定。MLE处的可能性分别只是贝叶斯因子分子和分母的点估计。像大多数常客主义的结构一样,它可以看作是贝叶斯分析的特例,其人为的先验很难做到。但主要是因为它在分析上易于处理且易于计算(在出现近似贝叶斯计算方法之前的时代)。
在计算上要点是:您将在几乎任何实际感兴趣的情况下,使用大规模的蒙特卡洛程序在贝叶斯设置中评估不同的似然积分。如果假设某些分布,并且有一些假设,则可以使用某些专门的模拟器(例如GHK),并且如果进行这些假设,则有时可以找到存在易分析的问题,并且存在对贝叶斯因子进行完全分析的问题。
但是没有人使用这些。没有理由。借助优化的Metropolis / Gibbs采样器和其他MCMC方法,以完全数据驱动的方式解决这些问题并以数字方式计算积分是完全容易处理的。实际上,人们经常会分层进行此操作,并进一步将结果整合到与数据收集机制,不可忽略的实验设计等相关的元优先级上。
对于这方面的更多信息,我推荐一本书贝叶斯数据分析。尽管作者安德鲁·盖尔曼(Andrew Gelman)似乎不太关心贝叶斯因素。顺便说一句,我同意盖尔曼。如果要使用贝叶斯方法,请充分利用后验。使用贝叶斯方法进行模型选择就像对其进行障碍一样,因为模型选择是一种微弱且几乎无用的推理形式。如果可以的话,我宁愿知道模型选择的分布情况...谁在乎不必将其量化为“模型A优于模型B”这类语句?
另外,在计算贝叶斯因子时,是否像对似然比那样对复杂性进行校正(自动通过交叉验证似然估计或通过AIC分析)?
M1M2d1d2d1<d2N
B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
我对这个推论和SylviaFrühwirth-Schnatter 的《有限混合和马尔可夫切换模型》一书的讨论都很熟悉,但是可能有更直接的统计资料更深入地研究了其基础的认识论。
我对这些细节还不够了解,无法在此处提供,但我相信这与AIC的推导之间存在着相当深的理论联系。Cover和Thomas撰写的《信息理论》书至少暗示了这一点。
另外,似然比和贝叶斯因子之间的哲学差异是什么(nb我并不是在询问似然比和贝叶斯方法之间的哲学差异,而是贝叶斯因子专门作为客观证据的代表)。与似然比相比,如何表征贝叶斯因子的含义?
在维基百科的文章对“解释”部分不讨论这个(出证据规模杰弗里斯的实力尤其是图表)的一个好工作。
像往常一样,除了贝叶斯方法和常客方法(您似乎已经熟悉)之间的基本区别之外,没有太多的哲学方面的东西。
最主要的是,似然比在荷兰书中并不连贯。您可以构思一些场景,其中从似然比进行模型选择的推断将导致人们接受输掉的赌注。贝叶斯方法是连贯的,但是在先验操作上可能非常差,必须主观选择。权衡..权衡...
FWIW,我认为这种重参数化的模型选择不是很好的推论。我更喜欢贝叶斯方法,并且我更倾向于将它们组织起来,并且我希望推断可以以全部后验分布为中心,如果这样做在计算上完全可行的话。我认为贝叶斯因子具有一些简洁的数学特性,但作为贝叶斯本人,我对它们没有印象。它们掩盖了贝叶斯分析的真正有用的部分,即它迫使您公开地处理先验知识,而不是一味将其扫在脑后,并允许您对全部后验者进行推断。