从MCMC样本计算边际可能性


24

这是一个反复出现的问题(请参阅本文本文文章),但是我有不同的看法。

假设我有一堆来自通用MCMC采样器的采样。对于每个样本,我知道对数似然和对数在先。如果有帮助,我也知道每个数据点的对数似然值\ log f(x_i | \ theta)(此信息对某些方法(例如WAIC和PSIS-LOO)有所帮助)。θlogf(x|θ)logf(θ)logf(xi|θ)

我想仅凭我拥有的样本以及可能的其他一些功能评估(但不重新运行即席 MCMC)来获得(粗略)边际可能性的估计。

首先,让我们清除表。众所周知,谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样,则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程(例如通过回火的后验者),但是我对此并不感兴趣。

我正在考虑的方法包括用参数(或非参数)形状g(\ theta)近似基础分布g(θ),然后将归一化常数Z视为一维优化问题(即,使某些误差最小的Z之间Zg(θ)f(x|θ)f(θ)评价对样品)。在最简单的情况下,假设后验近似为多元法线,我可以将g(\ theta)拟合g(θ)为多元法线,并得到类似于拉普拉斯近似的东西(我可能想使用一些其他函数求值来细化位置模式)。但是,我可以将其用作g(θ)更灵活的族,例如多元t分布的变体混合。

我知道只有在Zg(θ)f(\ textbf {x} | \ theta)f(\ theta)的合理近似值的情况下,此方法才有效f(x|θ)f(θ),但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗 您会建议阅读吗?

完全非参数方法使用一些非参数族,例如高斯过程(GP),来近似logf(x|θ)+logf(θ)(或其一些其他非线性变换,例如(作为平方根)和贝叶斯正交,以隐式集成基础目标(请参见此处此处)。这似乎是一种有趣的替代方法,但在精神上是类似的(另请注意,就我而言,全科医生会很笨拙)。


6
我认为Chib,S.和Jeliazkov,I. 2001年“大都市的边缘可能性-哈斯廷斯的输出”可以推广到正常的MCMC输出-希望听听这种方法的经验。至于GP-基本上,这可以归结为后路的仿真,您也可以考虑其他问题。我想问题是您永远无法确定近似值的质量。我还想知道,MCMC样本是否适合GP模型,或者是否应该在尾部进行更多的投资。
Florian Hartig

2
(+1)感谢您的参考,我发现了-我会检查一下。我同意所有基于模型的方法都是有问题的(贝叶斯正交的好处是您可以不确定性的估计,尽管不确定如何校准)。目前,我的谦虚目标是做“比拉普拉斯近似更好”的事情。
lacerbi '16

Answers:


26

不幸的是,Chib和Jeliazkov(2001)的扩展很快变得代价高昂或变化很大,这就是为什么在Gibbs抽样案例之外扩展名很少的原因。

尽管有很多方法和方法可以解决归一化常数估计问题(如上周我们在沃里克大学举办的“ 估计常数”研讨会中进行的各种各样的演讲所示,那里有可用的幻灯片),但确实一些解决方案可以利用直接输出MCMC。Z

  1. 正如您提到的,Newton and Raftery(1994)的谐波均值估计器由于具有无限方差而几乎总是差强人意。但是,有一些方法可以通过在谐波均值使用有限支持目标来避免无限方差诅咒 是选择作为后部HPD区域的指标。这样可以通过消除谐波均值中的尾部来确保有限的方差。(有关详细信息,请参见我与Darren Wraith撰写的一篇论文以及有关由Jean-Michel Marin撰写的有关规范化常量章节。)简而言之,该方法回收了MCMC输出

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θM通过确定目标的(例如20%)最大值,并在以那些最大密度(HPD)模拟为中心的球的并集上创建作为均匀值和具有半径,意思是标准化常数的估计由下式给出 βπ(θ)f(x|θ)αθi0ρZ
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    如果是的尺寸(校正适用于相交的球),并且足够小以至于球永不相交(意味着最多只有一个指示器在球不为零)。分母的解释是这是θ ρ α 中号2 β 中号2dθραM2βM2项: ,其中每个术语集成到。 θž-1
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. 另一种方法是将归一化常数转换为参数。这听起来像是统计上的异端,但Guttmann和Hyvärinen(2012)的论文使我相信了相反的观点。无需过多讨论,其中的巧妙想法是将观察到的对数似然 转换为联合对数似然 是具有强度函数的泊松点过程的对数似然 Z Ñ Σ= 1 [˚FX|θ+ν]-ñEXP[˚FX|θ+ν]dxexp{f

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    这是一种替代模型,因为原始的可能性不等于上述可能性。仅模式重合,ν中的条件模式提供归一化常数。实际上,上述泊松过程的可能性不可用,Guttmann和Hyvärinen(2012)通过逻辑回归提供了近似值。为了与您的问题更好地联系,Geyer的估计是一个MLE,因此可以解决最大化问题。
  3. 关联的方法是Charlie Geyer的逻辑回归方法。基本概念是将来自已知目标的另一个样本添加到MCMC样本中,例如,您对,的最佳猜测,然后运行对数据后面的分布索引进行逻辑回归(对于,对于为0 )。回归变量是两种密度的值,无论是否标准化。这恰好与Gelman和Meng(1997)的桥梁采样直接相关,后者还回收了来自不同目标的样本。和更高版本,例如Meng的MLE。π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)
  4. 强制运行特定的MCMC采样器的另一种方法是Skilling的嵌套采样。虽然我[和其他人]对方法的效率有所保留,它是在astrostatistics和宇宙学颇为流行,软件提供类似多重嵌套
  5. 最后一种[可能(即使并非总是可能)的解决方案]是在嵌入空假设的情况下利用贝叶斯因子的Savage-Dickey表示。如果空值写为关于感兴趣的参数,并且是模型参数的其余[讨厌]部分,则假定其先验形式为,则对于替代写的贝叶斯因子为 其中表示特定值的边缘后验密度H0:θ=θ0ξπ1(θ)π2(ξ)H0 πθθ0|Xθθ0ħ0θ=θ00X=∫Ξ˚FX|θ0ξπ2ξdξ
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0。在情况下,空下的边际密度 可用在闭合形式,可以得出无约束模型的边际密度 来自贝叶斯因子的。(这种Savage-Dickey表示依赖于三种不同密度的特定版本,因此充满了危险,甚至没有提到产生边缘后验的计算挑战。)H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[这是我去年12月为NIPS研讨会估算正常化常数的一组幻灯片。]


2
(+1)非常丰富的答案,谢谢。我想这对我和其他许多人都是有用的。我将需要一些时间来研究各种方法,然后我可能会提出一些具体问题。
lacerbi '16

2
从点(1)开始...我阅读了相关文章。“校正”的谐波均值估计器似乎正是我要的。给定MCMC输出,它整洁且易于计算。那么...有什么收获?从Google Scholar快速搜索来看,该方法似乎并未得到广泛使用。有什么限制?(除了需要确定HPD区域外,我认为对于高维非常复杂的后代来说这可能会成为一个问题)。我肯定会尝试一下-但我想知道是否需要警惕。
Lacerbi '16

2
我添加了更多细节:实现HPD制服的问题是找出适用于HPD区域的适当紧凑近似值。当以这些点为中心的球可能相交时,很难​​确定具有高后验值的点的凸包(NP?),这会产生一个二次归一化常数问题。
西安

2
@西安:非常有帮助,谢谢!我可以问一下:在所有上述方法中,如果您希望找到一种易于使用的通用方法(即,无需用户进行任何调整/检查),那么当前您的建议是什么?对于参数数量少(<50),后验非正常以及参数之间相关性强的模型,我将特别感兴趣。
Florian Hartig

1
@FlorianHartig:像BUGS之类的通用软件没有返回的通用估算值的事实在某种程度上揭示了问题的严重性。在专业文献中可以找到的许多解决方案尚未达成共识。因此,我的建议是选择Geyer的logistic回归解决方案,该解决方案对尺寸有些不敏感。Z
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.