期望最大化澄清


11

我发现有关EM算法的非常有用的教程。

该示例和教程中的图片简直太棒了。

在此处输入图片说明

有关计算概率的相关问题,期望最大化如何工作?

关于如何将教程中描述的理论与示例联系起来,我还有另一个问题。

在E步中,EM选择一个函数,该函数所有位置下限,并且为此。gtlogP(x;Θ)gt(Θ^(t))=logP(x;Θ^(t))

因此,在我们的示例中,看起来像每次迭代都应该有所不同。gt

另外,在示例中和然后将它们应用于数据,我们得出和。对我来说,这看起来很不直观。我们有一些先前的假设,将其应用于数据并获得新的假设,因此数据以某种方式改变了这些假设。我不明白为什么不等于。Θ^A(0)=0.6Θ^B(0)=0.5Θ^A(1)=0.71Θ^B(1)=0.58Θ^(0)Θ^(1)

此外,当您看到本教程的补充说明1时,还会出现更多问题。例如,在我们的案例中,是什么。我不清楚,为什么当时,不等式变得很紧Q(z)Q(z)=P(z|x;Θ)

谢谢。

Answers:


1

我发现这些说明对弄清补充材料中的内容很有帮助。

我会不连续地回答这些问题。


第一:为什么

θ(0)θ(1)

原因是我们的函数被选择为保证它小于或等于,其中2入射到我们最初的猜测。如果我们的先前假设是完美的初始猜测,那么您将是正确的,将保持不变。但是我们可以在创建的函数找到更高的值,因此可以保证我们对参数的下一次迭代比原始函数更有可能。g0log(P(x;θ))θ(0)θ(1)g0θ


第二:为什么不平等在什么时候紧缩

Q(z)=P(z|x;θ)

脚注中对此有一个提示:

当且仅当随机变量以概率1为常数(即)时,等式成立y=E[y]

暗示我们对的选择使不变。要看到这一点,请考虑:QP(x,z;θ)Q(z)

P(x,z;θ)=P(z|x;θ)P(x;θ)

这使得我们的分数

P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)

那么是什么,它是常数吗?好吧,请考虑我们正在计算的总和,对于该总和,该项是独立的(常数)。让我们将其表示为,该等式变为:P(x;θ)zC

log(zQ(z)C)zQ(z)log(C)

从这里我们可以很快看到两边相等,因为无论权重(),一个常数的期望都是该常数Q(z)


最后:什么是gt

我链接的注释中给出的答案与补充注释中的答案稍有不同,但是它们的区别仅在于一个常数,我们将其最大化,因此没有意义。注释中的一个(含推导)为:

gt(θ)=log(P(x|θ(t)))+zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))

补充说明中没有详细讨论这个复杂的公式,可能是因为其中很多术语都是常量,当我们最大化时这些常量会被丢弃。如果您首先对我们的到达方式感兴趣,我建议您链接我的注释。

使用与第二个问题的答案中类似的论点,对于,对数中的项等于1,因此总和项消失而。gt(θ(t))gt(θ(t))=logP(x|θ(t))

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.