贝叶斯和EM之间的关系


26

我在某处读到,变分贝叶斯方法是EM算法的概括。确实,算法的迭代部分非常相似。为了测试EM算法是否是Variational Bayes的特殊版本,我尝试了以下方法:

  1. Y是数据,是潜在变量的集合,是参数。在变分贝叶斯中,我们可以做一个近似,使得。当 s为简单,易于处理的分布。XΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. 由于EM算法找到了MAP点估计值,因此我认为,如果我使用Delta函数,则变分贝叶斯可以收敛到EM:。是通常在EM中完成的参数的第一个估计。QΘ1(Θ)=δΘ1(Θ)Θ1

  3. 当给出,,其最小化的KL发散由公式发现 上面的公式简化为,此步骤等效于Expectation步骤EM算法!QΘ1(Θ)=δΘ1(Θ)QX1(X)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

但是我不能将“最大化”步骤作为此步骤的延续。在下一步中,我们需要计算,根据变分贝叶斯迭代规则,这是:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

VB和EM算法是否真的以这种方式连接?我们如何得出EM作为变分贝叶斯的特例,我的方法是正确的吗?


您从哪里了解到EM算法找到了MAP估算值?一旦您了解了Neal&Hinton(1998)在本文中提出的关于EM观点,变分推理和EM之间的关系将变得清晰。另见我的答案在这里
卢卡斯2014年

我想我以与本文说明相同的方式学习了EM算法,它被视为下界最大化问题。使用詹森的等式和变异演算,人们发现在期望步骤中,是使下界最大化的分布,而在最大化步骤中,人们发现了,这是下限的最大值。因此,这类似于变异贝叶斯。(并且收敛到边缘后验的局部最大值,因此是MAP估计)P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici 2014年

1
抱歉,我没有足够仔细地阅读您的问题。我相信您的最大化步骤仅在允许任何分布的情况下才有效,也就是说,仅在进行分解假设的情况下才有效。但您还假设是增量分布。尝试显式最大化关于的下限,。QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
卢卡斯2014年

我在演示文稿cs.cmu.edu/~tom/10-702/Zoubin-702.pdf的第21页中找到了EM和VB的比较,这与使用Dirac函数类似。但是没有给出VB如何降低到EM。
Ufuk Can Bicici 2014年

Answers:


20

您的方法是正确的。在的近似后验约束为点质量的约束下,EM等于VB 。(这在贝叶斯数据分析的第337页上没有给出证明。)假设是该点质量的未知位置: VB将最小化以下KL散度: 的最小值给出EM的E步,的最小值给出EM的M步。 ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

当然,如果您要实际评估KL差异,那将是无限的。但这不是问题,如果您将delta函数视为一个限制。


从技术上讲,最大化 wrt对应于MAP-EM的M步(具有先前的)。-VBEM论文的第3.1节EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
杨艺波
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.