为什么期望最大化对于混合模型很重要?


15

有许多文献强调混合模型(高斯混合模型,隐马尔可夫模型等)上的期望最大化方法。

为何EM重要?EM只是一种优化方法,并未广泛用作基于梯度的方法(梯度体面或牛顿/准牛顿法)或此处讨论的其他无梯度方法。此外,EM仍然存在局部极小问题。

是因为该过程是直观的并且可以轻松地转换为代码吗?还是其他原因?

Answers:


14

原则上,EM和标准优化方法均可用于拟合混合物分布。与EM一样,凸优化求解器将收敛到局部最优。但是,存在多种优化算法,可以在存在多个局部最优值的情况下寻求更好的解决方案。据我所知,收敛速度最快的算法将取决于问题。

EM的一个好处是,它自然会在每次迭代中为混合物的分布产生有效的参数。相反,标准优化算法将需要施加约束。例如,假设您要拟合高斯混合模型。一种标准的非线性规划方法将要求将协方差矩阵约束为正半定值,并且将混合分量权重约束为非负且总和为1。

为了在高维问题上获得良好的性能,非线性编程求解器通常需要利用梯度。因此,您必须导出梯度或使用自动微分来计算它。如果约束函数没有标准形式,则也需要渐变。牛顿的方法和相关方法(例如信任区域方法)也需要使用Hessian。如果无法获得梯度,则可以使用有限差分或无导数方法,但是随着参数数量的增加,性能往往无法很好地扩展。相反,EM不需要渐变。

EM在概念上很直观,这是一个很大的优点。这通常也适用于标准优化方法。有许多实现细节,但是总体概念很简单。通常可以使用标准的优化求解器将这些细节抽象化。在这些情况下,用户仅需提供目标函数,约束和梯度,并具有足够的工作知识即可选择非常适合该问题的求解器。但是,如果要达到用户必须考虑或实现优化算法的低级细节的程度,则肯定需要专业知识。

EM算法的另一个好处是可以在缺少某些数据值的情况下使用它。

同样感兴趣的(包括评论):


混合模型的约束通常可以通过重新参数化来实施。例如可以通过在优化完成q [Rp = EXP q 一世p一世=1q一世[Rp一世=经验值q一世Ĵ经验值qĴ
bayerj

1
是的,确实是这样。这是从用户(必须将其编码)的角度强加约束的一种形式,但不是从求解器(不再直接接收相应约束)的角度强加约束的形式。另一特技:一个协方差矩阵可使用无约束矩阵来表示ü,其中c ^ = Ú Ť ü。但是,与直接使用C并将其约束为正半定对称矩阵相比,这会增加计算量和参数数量。CüC=üŤüC
user20160

ü0

对,对,胆量分解。好多了。
user20160

1
+1好答案!您能否进一步解释“它在每次迭代中自然为混合物的分布产生有效的参数”?对于其他方法,每次迭代我们仍然具有决策变量值,对吗?
海涛杜

2

我认为user20160的答案提供了很好的解释,使得基于梯度的方法在此处不适用的最重要原因是协方差矩阵的约束为正半定,混合系数为非负且总和为1。

只是要指出,如果将协方差矩阵限制为对角线,那么可以很容易地表达这两个约束。

Σ=[σ12σñ2]
ϕķ=Ëpķ/ķËp一世

此外,这使我们可以直接针对真实可能性进行优化,而不是使用变化下限(ELBO),从而消除了对潜在变量的需求。

但是,即使在这种情况下,EM通常也比梯度合适的算法更好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.