为什么直接在计算上优化高斯混合很难?


18

考虑混合高斯的对数似然:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

我想知道为什么要直接最大化该方程在计算上很困难?我一直在寻找一个清晰的直觉,以了解为什么它应该如此艰难,或者为什么要对其为何如此艰难做出更严格的解释。这个问题是NP完整的,还是我们还不知道如何解决?这是我们诉诸使用EM(期望最大化)算法的原因吗?


符号:

Sn =训练数据。

x(t) =数据点。

θ =一组参数,指定高斯,其均值,标准偏差以及从每个聚类/类/高斯生成点的概率。

pi =从聚类/类/高斯i生成点的概率。

Answers:


14

首先,GMM是用于聚类的一种特殊算法,您尝试在其中找到观测值的最佳标记。具有可能的类,这意味着您的训练数据有可能的标签。对于中等的和值,这已经变得很大。ķ ķ Ñ ķ Ñnkknkn

其次,您要最小化的功能不是凸面的,并且与问题的严重性一起使它变得非常困难。我只知道k均值(GMM可以看作kmeans的软版本)是NP难点。但是我不知道是否也已经为GMM证明了这一点。

若要查看该问题不是凸的,请考虑一维情况: 并检查您是否不能保证d 2大号

L=log(e(x/σ1)2+e(x/σ2)2)
d2Ldx2>0所有x的。

遇到非凸问题意味着您可能会陷入局部最小值。通常,您没有凸优化的强大保证,而且寻找解决方案也要困难得多。


3
关于第二点:k均值可以看作是GMM的特殊情况(更确切地说,是将方差设为零的极限情况)。如果我们可以将k均值减少为GMM的拟合,则后者也必须是NP难题。
卢卡斯

1
@Lucas:这是指向您的评论的“ 交叉验证”链接
西安

7

除了juampa的要点外,让我指出这些困难:

  • l(θ|Sn)+μ^(i)=x1σ^i=0
  • knl(θ|Sn)θ下图

摘自我的书

另一点注意:在不调用EM算法的情况下,可以一次使用标准优化算法(如Newton-Raphson)一次使用一个参数,即迭代

  • θ1=argmaxθ1l(θ|Sn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


好的,如果方差为0,则L是无界的。但是,如果我们将它们排除在可能的参数之外(因此我们假设所有方差> 0),那么无论何时选择无穷小方差(由于其他点),L都不会那么高。我对吗?然后,对于此可能的参数集,L将是有界的,这将暗示EM算法收敛(增加有界序列)。
ahstat

@ahstat:假设方差严格为正,则如果开始足够接近,则不会阻止EM收敛到退化的解。
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.