我目前正在使用R中的JAGS学习分层贝叶斯模型,并使用Python(“黑客的贝叶斯方法”)学习pymc 。
我可以从这篇文章中得到一些直觉:“最终,您会得到一堆看起来像是在某种程度上设法从想要了解的复杂分布中提取独立样本的数字。” 就像我可以给出条件概率,然后我可以基于条件概率生成无记忆过程。当我生成过程足够长的时间时,联合概率可以收敛。然后我可以在生成的序列的末尾取一堆数字。就像我从复杂的联合分布中提取独立样本一样。例如,我可以制作直方图,它可以近似分布函数。
然后我的问题是,我是否需要证明MCMC是否针对某个模型收敛?我很高兴知道这一点,因为我以前学习了GMM和LDA(图形模型)的EM算法。如果我只使用MCMC算法而不证明它是否收敛,那么它可以比EM节省更多时间。由于我将必须计算预期的对数似然函数(必须计算后验概率),然后使预期的对数似然率最大化。它显然比MCMC麻烦(我只需要表述条件概率)。
我也想知道似然函数和先验分布是否共轭。这是否意味着MCMC必须收敛?我想知道MCMC和EM的局限性。
2
根据定义,MCMC收敛为。而不是证明它,您可以诊断收敛性以检查模型是否收敛,例如math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal / ...或people.fas.harvard.edu/~plam/teaching/methods / convergence /…
—
蒂姆
EM更快,它是非贝叶斯的(不是每个人都喜欢贝叶斯的统计数据),并且在某些情况下,它具有较少的可识别性问题(它收敛到一个最大值,而使用MCMC方法,您的整个分布可能比点估计更复杂) )等
—
蒂姆
EM用于最大似然或最大后验估计,但最初被描述为ML算法,并且通常用于ML方法(请参阅en.wikipedia.org/wiki/…)。
—
蒂姆
即使您使用EM而不是ML来进行MAP估计,对于我来说它也不是贝叶斯的,因为它确实试图刻画后验分布,但只能获取其局部模式。
—
卡
对我而言,使用EM是非贝叶斯方法,因为它可以为您提供您感兴趣的参数的点估计,而不能量化全部后验分布。使用EM和MCMC都可以拥有具有先验,潜在和观察到的随机变量的完整概率模型,但是推论是不同的。MCMC旨在刻画后验全过程的特征,而EM给出的信息无法传达后验全过程的信息。对我来说,贝叶斯是使用后验分布进行决策的人。但是,这可能很简单。我也在学习这些东西。
—
卡