贝叶斯和EM之间的关系
我在某处读到,变分贝叶斯方法是EM算法的概括。确实,算法的迭代部分非常相似。为了测试EM算法是否是Variational Bayes的特殊版本,我尝试了以下方法: YYY是数据,是潜在变量的集合,是参数。在变分贝叶斯中,我们可以做一个近似,使得。当 s为简单,易于处理的分布。XXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ 由于EM算法找到了MAP点估计值,因此我认为,如果我使用Delta函数,则变分贝叶斯可以收敛到EM:。是通常在EM中完成的参数的第一个估计。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Θ1Θ1\Theta_1 当给出,,其最小化的KL发散由公式发现 上面的公式简化为,此步骤等效于Expectation步骤EM算法!Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Q1X(X)QX1(X)Q^1_X(X)Q1X(X)=exp(EδΘ1[lnP(X,Y,Θ)])∫exp(EδΘ1[lnP(X,Y,Θ)])dXQX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])∫exp(EδΘ1[lnP(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}Q1X(X)=P(X|Θ1,Y)QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y) 但是我不能将“最大化”步骤作为此步骤的延续。在下一步中,我们需要计算,根据变分贝叶斯迭代规则,这是:Q2Θ(Θ)QΘ2(Θ)Q^2_\Theta(\Theta) Q2Θ(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])∫exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘQΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])∫exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘQ^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta} VB和EM算法是否真的以这种方式连接?我们如何得出EM作为变分贝叶斯的特例,我的方法是正确的吗?