为什么期望最大化算法可以保证收敛到局部最优值?


24

我已经阅读了一些关于EM算法的解释(例如,来自Bishop的模式识别和机器学习以及Roger和Gerolami的第一门机器学习课程)。我理解EM的派生是可以的。我还理解了为什么算法会覆盖某些东西:在每一步我们都会改善结果,并且似然性以1.0为界,因此,通过使用一个简单的事实(如果函数增加并且有界则收敛),我们知道算法会收敛为一些解决方案。

但是,我们怎么知道它是局部最小值?在每一步中,我们仅考虑一个坐标(潜在变量或参数),因此我们可能会遗漏某些东西,例如局部最小值要​​求同时移动两个坐标。

我相信这与EM是一个实例的一般爬山算法类似。因此,对于一般的爬山算法,对于函数f(x,y)= x * y,我们会遇到这个问题。如果我们从(0,0)点开始,那么只有同时考虑两个方向,我们才能从0值向上移动。


3
可能性仅对固定方差有界。也就是说,在二项式情况下,方差为;或在高斯情况下(如果假定方差已知)。如果方差未知且必须进行估计,则可能性不受限制。同样,在EM算法中,至少对于常客统计学家来说,缺失和参数之间存在一般性的分离,但是表面确实确实有鞍形。p(1p)
StasK 2014年

@Stask我不确定即使有固定的方差,可能性也通常不会受到限制。您只限于某些家庭吗?
Glen_b-恢复莫妮卡

Answers:



13

首先,EM可能收敛到似然函数的局部最小值局部最大值鞍点。更准确地说,正如汤姆·明卡Tom Minka)指出的那样,保证EM收敛到零梯度的点。

我可以想出两种方式看待这种情况;第一种观点是纯粹的直觉,第二种观点是形式证明的草图。首先,我将简要介绍一下EM的工作原理:

tbt(θ)L(θ)θt=argmaxθbt(θ)

期望最大化作为梯度上升

在每次迭代,EM要求边界在前一次迭代的解(即处触摸似然函数,这暗示它们的梯度也相同;即。因此,EM 至少与梯度上升一样好,因为至少与。换一种说法:b 大号θ - 1= b θ - 1= 大号θ - 1θ θ - 1 + η tbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

如果EM收敛到则也是梯度上升的收敛点,并且EM满足梯度上升解决方案之间共享的任何属性(包括零梯度值)。θ θθ

正式证明的草图

可以看出边界与似然函数之间的差距收敛为零; 可以证明边界的梯度也收敛到似然函数的梯度;即 。即: 因为和并且在EM中使用的边界是可微的,并且,所以我们有,因此。

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)LIM →交通▿ 大号θ = 0bt(θt)=0limtL(θt)=0
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.