我在某处读到,变分贝叶斯方法是EM算法的概括。确实,算法的迭代部分非常相似。为了测试EM算法是否是Variational Bayes的特殊版本,我尝试了以下方法:
是数据,是潜在变量的集合,是参数。在变分贝叶斯中,我们可以做一个近似,使得。当 s为简单,易于处理的分布。
由于EM算法找到了MAP点估计值,因此我认为,如果我使用Delta函数,则变分贝叶斯可以收敛到EM:。是通常在EM中完成的参数的第一个估计。
当给出,,其最小化的KL发散由公式发现 上面的公式简化为,此步骤等效于Expectation步骤EM算法!
但是我不能将“最大化”步骤作为此步骤的延续。在下一步中,我们需要计算,根据变分贝叶斯迭代规则,这是:
VB和EM算法是否真的以这种方式连接?我们如何得出EM作为变分贝叶斯的特例,我的方法是正确的吗?
您从哪里了解到EM算法找到了MAP估算值?一旦您了解了Neal&Hinton(1998)在本文中提出的关于EM的观点,变分推理和EM之间的关系将变得清晰。另见我的答案在这里。
—
卢卡斯2014年
我想我以与本文说明相同的方式学习了EM算法,它被视为下界最大化问题。使用詹森的等式和变异演算,人们发现在期望步骤中,是使下界最大化的分布,而在最大化步骤中,人们发现了,这是下限的最大值。因此,这类似于变异贝叶斯。(并且收敛到边缘后验的局部最大值,因此是MAP估计)
—
Ufuk Can Bicici 2014年
抱歉,我没有足够仔细地阅读您的问题。我相信您的最大化步骤仅在允许任何分布的情况下才有效,也就是说,仅在进行分解假设的情况下才有效。但您还假设是增量分布。尝试显式最大化关于的下限,。
—
卢卡斯2014年
我在演示文稿cs.cmu.edu/~tom/10-702/Zoubin-702.pdf的第21页中找到了EM和VB的比较,这与使用Dirac函数类似。但是没有给出VB如何降低到EM。
—
Ufuk Can Bicici 2014年