首先,EM可能收敛到似然函数的局部最小值,局部最大值或鞍点。更准确地说,正如汤姆·明卡(Tom Minka)指出的那样,保证EM收敛到零梯度的点。
我可以想出两种方式看待这种情况;第一种观点是纯粹的直觉,第二种观点是形式证明的草图。首先,我将简要介绍一下EM的工作原理:
ŤbŤ(θ )L (θ )θŤ= arg最高θbŤ(θ )
期望最大化作为梯度上升
在每次迭代,EM要求边界在前一次迭代的解(即处触摸似然函数,这暗示它们的梯度也相同;即。因此,EM 至少与梯度上升一样好,因为至少与。换一种说法:b 吨大号θ 吨- 1克= ∇ b 吨(θ 吨- 1)= ∇ 大号(θ 吨- 1)θ 吨θ 吨- 1 + η 克ŤbŤ大号θt − 1G= ∇ bŤ(θt − 1)= ∇ 大号(θt − 1)θŤθt − 1+ ηG
如果EM收敛到则也是梯度上升的收敛点,并且EM满足梯度上升解决方案之间共享的任何属性(包括零梯度值)。θ ∗θ∗θ∗
正式证明的草图
可以看出边界与似然函数之间的差距收敛为零;
可以证明边界的梯度也收敛到似然函数的梯度;即
。即:
因为和并且在EM中使用的边界是可微的,并且,所以我们有,因此。
limt→∞L(θt)−bt(θt)=0.(1)
limt→∞∇L(θt)=∇bt(θt).(2)
(1)(2)θt=argmaxθbt(θ)LIM 吨→交通∞▿ 大号(θ 吨)= 0∇bt(θt)=0limt→∞∇L(θt)=0