MCMC / EM的局限性?EM上的MCMC?


9

我目前正在使用R中的JAGS学习分层贝叶斯模型,并使用Python(“黑客的贝叶斯方法”)学习pymc 。

我可以从这篇文章中得到一些直觉:“最终,您会得到一堆看起来像是在某种程度上设法从想要了解的复杂分布中提取独立样本的数字。” 就像我可以给出条件概率,然后我可以基于条件概率生成无记忆过程。当我生成过程足够长的时间时,联合概率可以收敛。然后我可以在生成的序列的末尾取一堆数字。就像我从复杂的联合分布中提取独立样本一样。例如,我可以制作直方图,它可以近似分布函数。

然后我的问题是,我是否需要证明MCMC是否针对某个模型收敛?我很高兴知道这一点,因为我以前学习了GMM和LDA(图形模型)的EM算法。如果我只使用MCMC算法而不证明它是否收敛,那么它可以比EM节省更多时间。由于我将必须计算预期的对数似然函数(必须计算后验概率),然后使预期的对数似然率最大化。它显然比MCMC麻烦(我只需要表述条件概率)。

我也想知道似然函数和先验分布是否共轭。这是否意味着MCMC必须收敛?我想知道MCMC和EM的局限性。


2
根据定义,MCMC收敛为。而不是证明它,您可以诊断收敛性以检查模型是否收敛,例如math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal / ...people.fas.harvard.edu/~plam/teaching/methods / convergence /…ñ
蒂姆

3
EM更快,它是非贝叶斯的(不是每个人都喜欢贝叶斯的统计数据),并且在某些情况下,它具有较少的可识别性问题(它收敛到一个最大值,而使用MCMC方法,您的整个分布可能比点估计更复杂) )等
蒂姆

2
EM用于最大似然或最大后验估计,但最初被描述为ML算法,并且通常用于ML方法(请参阅en.wikipedia.org/wiki/…)。
蒂姆

1
即使您使用EM而不是ML来进行MAP估计,对于我来说它也不是贝叶斯的,因为它确实试图刻画后验分布,但只能获取其局部模式。

1
对我而言,使用EM是非贝叶斯方法,因为它可以为您提供您感兴趣的参数的点估计,而不能量化全部后验分布。使用EM和MCMC都可以拥有具有先验,潜在和观察到的随机变量的完整概率模型,但是推论是不同的。MCMC旨在刻画后验全过程的特征,而EM给出的信息无法传达后验全过程的信息。对我来说,贝叶斯是使用后验分布进行决策的人。但是,这可能很简单。我也在学习这些东西。

Answers:


13

EM是一种优化技术:给定具有有用潜变量的可能性,它会返回局部最大值,取决于起始值,该最大值可能是全局最大值。

MCMC是一种模拟方法:给定具有或不具有潜在变量的可能性,并且先验后,它会产生一个从后验分布近似分布的样本。该样品的最初值通常取决于起始值,这意味着它们通常在老化(或预热)阶段被丢弃。

当此样本用于评估与后验分布相关的积分时(绝大多数情况),由于遍历定理,收敛性质与iid Monte Carlo近似的性质基本相同。

XŤXŤ+ŤπX|d

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.