我发现这些说明对弄清补充材料中的内容很有帮助。
我会不连续地回答这些问题。
第一:为什么
θ(0)≠θ(1)
原因是我们的函数被选择为保证它小于或等于,其中2入射到我们最初的猜测。如果我们的先前假设是完美的初始猜测,那么您将是正确的,将保持不变。但是我们可以在创建的函数找到更高的值,因此可以保证我们对参数的下一次迭代比原始函数更有可能。g0log(P(x;θ))θ(0)θ(1)g0θ
第二:为什么不平等在什么时候紧缩
Q(z)=P(z|x;θ)
脚注中对此有一个提示:
当且仅当随机变量以概率1为常数(即)时,等式成立y=E[y]
暗示我们对的选择使不变。要看到这一点,请考虑:QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
这使得我们的分数
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
那么是什么,它是常数吗?好吧,请考虑我们正在计算的总和,对于该总和,该项是独立的(常数)。让我们将其表示为,该等式变为:P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
从这里我们可以很快看到两边相等,因为无论权重(),一个常数的期望都是该常数Q(z)
最后:什么是gt
我链接的注释中给出的答案与补充注释中的答案稍有不同,但是它们的区别仅在于一个常数,我们将其最大化,因此没有意义。注释中的一个(含推导)为:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
补充说明中没有详细讨论这个复杂的公式,可能是因为其中很多术语都是常量,当我们最大化时这些常量会被丢弃。如果您首先对我们的到达方式感兴趣,我建议您链接我的注释。
使用与第二个问题的答案中类似的论点,对于,对数中的项等于1,因此总和项消失而。gt(θ(t))gt(θ(t))=logP(x|θ(t))