手动执行EM算法

我想手动实现EM算法，然后比较它的结果normalmixEM的mixtools包。当然，如果它们都能带来相同的结果，我将很高兴。主要参考文献是Geoffrey McLachlan（2000），有限混合模型。

我有两个高斯混合密度，一般形式下，对数似然由（McLachlan第48页）给出：

\log L_{c} (Ψ) = \sum_{i = 1}^{g} \sum_{j = 1}^{n} z_{i j} {\log π_{i} + \log f_{i} (y_{i}; θ_{i})} .

$\log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}.$ 所述是，如果观察是从^个元件密度，否则。该是正态分布的密度。所述是混合物的比例，所以是概率，即观察是从第一高斯分布和是概率，即观察是从第二高斯分布。

z_{i j}

$z_{ij}$

1

$1$

i

$i$

0

$0$

f_{i}

$f_i$

π

$\pi$

π_{1}

$\pi_1$

π_{2}

$\pi_2$

该ê步现在，条件期望的计算：

Q (Ψ; Ψ^{(0)}) = E_{Ψ (0)} {\log L_{c} (| Ψ) | y} .

$Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}.$ 经过一些推导得出结果（第49页）：

\begin{aligned} τ_{i} (y_{j}; Ψ^{(k)}) & = \frac{π_{i}^{(k)} f_{i} (y_{j}; θ_{i}^{(k)}}{f (y_{j}; Ψ^{(k)}} \\ = \frac{π_{i}^{(k)} f_{i} (y_{j}; θ_{i}^{(k)}}{\sum_{h = 1}^{g} π_{h}^{(k)} f_{h} (y_{j}; θ_{h}^{(k)})} \end{aligned}

$\begin{align} \tau_i(y_j;\Psi^{(k)}) &= \frac{\pi_i^{(k)}f_i(y_j;\theta_i^{(k)}}{f(y_j;\Psi^{(k)}} \\[8pt] &= \frac{\pi_i^{(k)}f_i(y_j;\theta_i^{(k)}}{\sum_{h=1}^g \pi_h^{(k)}f_h(y_j;\theta_h^{(k)})} \end{align}$ 在两个高斯的情况下（第82页）：

τ_{i} (y_{j}; Ψ) = \frac{π_{i} ϕ (y_{j}; μ_{i}, Σ_{i})}{\sum_{h = 1}^{g} π_{h} ϕ (y_{j}; μ_{h}, Σ_{h})}

$\tau_i(y_j;\Psi) = \frac{\pi_i \phi(y_j;\mu_i,\Sigma_i)}{\sum_{h=1}^g \pi_h\phi(y_j; \mu_h,\Sigma_h)}$ 现在，M步是Q的最大值（第49页）：

Q (Ψ; Ψ^{(k)}) = \sum_{i = 1}^{g} \sum_{j = 1}^{n} τ_{i} (y_{j}; Ψ^{(k)}) {\log π_{i} + \log f_{i} (y_{j}; θ_{i})} .

$Q(\Psi;\Psi^{(k)}) = \sum_{i=1}^g\sum_{j=1}^n\tau_i(y_j;\Psi^{(k)})\{\log \pi_i + \log f_i(y_j;\theta_i)\}.$ 这导致（在两个高斯的情况下）（第82页）：

\begin{aligned} μ_{i}^{(k + 1)} & = \frac{\sum_{j = 1}^{n} τ_{i j}^{(k)} y_{j}}{\sum_{j = 1}^{n} τ_{i j}^{(k)}} \\ Σ_{i}^{(k + 1)} & = \frac{\sum_{j = 1}^{n} τ_{i j}^{(k)} (y_{j} - μ_{i}^{(k + 1)}) (y_{j} - μ_{i}^{(k + 1)})^{T}}{\sum_{j = 1}^{n} τ_{i j}^{(k)}} \end{aligned}

$\begin{align} \mu_i^{(k+1)} &= \frac{\sum_{j=1}^n \tau_{ij}^{(k)}y_j}{\sum_{j=1}^n \tau_{ij}^{(k)}} \\[8pt] \Sigma_i^{(k+1)} &= \frac{\sum_{j=1}^n \tau_{ij}^{(k)}(y_j - \mu_i^{(k+1)})(y_j - \mu_i^{(k+1)})^T}{\sum_{j=1}^n \tau_{ij}^{(k)}} \end{align}$ ，我们知道（p。50）

π_{i}^{(k + 1)} = \frac{\sum_{j = 1}^{n} τ_{i} (y_{j}; Ψ^{(k)})}{n} (i = 1, \dots, g) .

$\pi_i^{(k+1)} = \frac{\sum_{j=1}^n \tau_i(y_j;\Psi^{(k)})}{n}\qquad (i = 1, \ldots, g).$ 我们重复E，M步骤，直到很小。

L (Ψ^{(k + 1)}) - L (Ψ^{(k)})

$L(\Psi^{(k+1)})-L(\Psi^{(k)})$

我尝试编写R代码（可以在此处找到数据）。

# EM algorithm manually
# dat is the data

# initial values
pi1       <-  0.5
pi2       <-  0.5
mu1       <- -0.01
mu2       <-  0.01
sigma1    <-  0.01
sigma2    <-  0.02
loglik[1] <-  0
loglik[2] <- sum(pi1*(log(pi1) + log(dnorm(dat,mu1,sigma1)))) + 
             sum(pi2*(log(pi2) + log(dnorm(dat,mu2,sigma2))))

tau1 <- 0
tau2 <- 0
k    <- 1

# loop
while(abs(loglik[k+1]-loglik[k]) >= 0.00001) {

  # E step
  tau1 <- pi1*dnorm(dat,mean=mu1,sd=sigma1)/(pi1*dnorm(x,mean=mu1,sd=sigma1) + 
          pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau2 <- pi2*dnorm(dat,mean=mu2,sd=sigma2)/(pi1*dnorm(x,mean=mu1,sd=sigma1) + 
          pi2*dnorm(dat,mean=mu2,sd=sigma2))

  # M step
  pi1 <- sum(tau1)/length(dat)
  pi2 <- sum(tau2)/length(dat)

  mu1 <- sum(tau1*x)/sum(tau1)
  mu2 <- sum(tau2*x)/sum(tau2)

  sigma1 <- sum(tau1*(x-mu1)^2)/sum(tau1)
  sigma2 <- sum(tau2*(x-mu2)^2)/sum(tau2)

  loglik[k] <- sum(tau1*(log(pi1) + log(dnorm(x,mu1,sigma1)))) + 
               sum(tau2*(log(pi2) + log(dnorm(x,mu2,sigma2))))
  k         <- k+1
}


# compare
library(mixtools)
gm <- normalmixEM(x, k=2, lambda=c(0.5,0.5), mu=c(-0.01,0.01), sigma=c(0.01,0.02))
gm$lambda
gm$mu
gm$sigma

gm$loglik

该算法不起作用，因为某些观测值的可能性为零，其对数为-Inf。我的错误在哪里？

r expectation-maximization gaussian-mixture

— 统计学家
source

问题不是统计问题，而是数字问题。您应该为代码中的可能性小于机器精度的可能性添加意外事件。

— JohnRos

为什么不尝试通过一个非常简单的示例来尝试对mixtools函数进行处理，该示例可以手动进行验证，比如说五个或十个值和两个时间序列，首先。然后，如果您发现它可以在其中工作，请对代码进行概括并在每个步骤中进行验证。

Answers:

您在源代码中有几个问题：

正如@Pat指出的那样，您不应该使用log（dnorm（）），因为此值很容易变为无穷大。您应该使用logmvdnorm
使用sum时，请注意删除无穷或缺失的值
您循环变量k是错误的，应该更新loglik [k + 1]，但要更新loglik [k]
方法和mixtools的初始值不同。您在方法中使用的是，但对于mixtools 使用的是（即，标准偏差，来自mixtools手册）。 $\Sigma$ $\sigma$
您的数据看起来不像是正常的混合（请查看我在最后绘制的直方图）。并且混合物的一个成分的sd非常小，因此我任意添加一行以将和设置为对于某些极端样本相等。我添加它们只是为了确保代码可以正常工作。 $\tau_1$ $\tau_2$

我还建议您在源代码中放入完整的代码（例如，如何初始化loglik []），并缩进代码以使其易于阅读。

毕竟，感谢您引入mixtools软件包，我计划在以后的研究中使用它们。

我还将我的工作代码供您参考：

# EM algorithm manually
# dat is the data
setwd("~/Downloads/")
load("datem.Rdata")
x <- dat

# initial values
pi1<-0.5
pi2<-0.5
mu1<--0.01
mu2<-0.01
sigma1<-sqrt(0.01)
sigma2<-sqrt(0.02)
loglik<- rep(NA, 1000)
loglik[1]<-0
loglik[2]<-mysum(pi1*(log(pi1)+log(dnorm(dat,mu1,sigma1))))+mysum(pi2*(log(pi2)+log(dnorm(dat,mu2,sigma2))))

mysum <- function(x) {
  sum(x[is.finite(x)])
}
logdnorm <- function(x, mu, sigma) {
  mysum(sapply(x, function(x) {logdmvnorm(x, mu, sigma)}))  
}
tau1<-0
tau2<-0
#k<-1
k<-2

# loop
while(abs(loglik[k]-loglik[k-1]) >= 0.00001) {
  # E step
  tau1<-pi1*dnorm(dat,mean=mu1,sd=sigma1)/(pi1*dnorm(x,mean=mu1,sd=sigma1)+pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau2<-pi2*dnorm(dat,mean=mu2,sd=sigma2)/(pi1*dnorm(x,mean=mu1,sd=sigma1)+pi2*dnorm(dat,mean=mu2,sd=sigma2))
  tau1[is.na(tau1)] <- 0.5
  tau2[is.na(tau2)] <- 0.5

  # M step
  pi1<-mysum(tau1)/length(dat)
  pi2<-mysum(tau2)/length(dat)

  mu1<-mysum(tau1*x)/mysum(tau1)
  mu2<-mysum(tau2*x)/mysum(tau2)

  sigma1<-mysum(tau1*(x-mu1)^2)/mysum(tau1)
  sigma2<-mysum(tau2*(x-mu2)^2)/mysum(tau2)

  #  loglik[k]<-sum(tau1*(log(pi1)+log(dnorm(x,mu1,sigma1))))+sum(tau2*(log(pi2)+log(dnorm(x,mu2,sigma2))))
  loglik[k+1]<-mysum(tau1*(log(pi1)+logdnorm(x,mu1,sigma1)))+mysum(tau2*(log(pi2)+logdnorm(x,mu2,sigma2)))
  k<-k+1
}

# compare
library(mixtools)
gm<-normalmixEM(x,k=2,lambda=c(0.5,0.5),mu=c(-0.01,0.01),sigma=c(0.01,0.02))
gm$lambda
	gm$mu
gm$sigma

gm$loglik

历史图直方图

— 战国
source

@zahnxw感谢您的回答，这是否意味着我的代码是错误的？那么basi的想法行不通吗？

— Stat Tistician

“我还建议您在源代码中放入完整的代码（例如，如何初始化loglik []），并缩进代码以使其易于阅读。” 好吧，这是我的代码？loglik []是否定义为我在发布的代码中声明的名称？

— Stat Tistician

@StatTistician这个想法是正确的，但是实现确实存在缺陷。例如，您没有考虑下溢。另外，循环变量k令人困惑，首先设置loglik [1]和loglik [2]，进入while循环后，再次设置loglik [1]。这不是自然的方法。我关于初始化loglik []的建议是代码：loklik <- rep(NA, 100)，它将预分配loglik [1]，loglik [2] ... loglik [100]。我提出这个问题是因为在您的原始代码中，我没有找到loglik的替代物，也许代码在粘贴过程中被截断了？

— zhanxw

正如我在下面发布的：感谢您的帮助，但是由于这个主题对我来说太高级了，因此我将其删除。

— Stat Tistician

现在是否可以确定数据的哪一部分属于哪种混合？

— 红衣主教

尝试打开您的.rar文件时，我始终收到错误消息，但这可能只是我在做一些愚蠢的事情。

我发现您的代码中没有明显的错误。您得到零的可能原因是由于浮点精度。请记住，当您计算，您正在评估。和之间的差别并不大，在计算机上将其舍入为0时。这在混合模型中会倍加引起注意，因为您的某些数据不会被“分配”给每个混合组件，因此最终可能会远离它。从理论上讲，这些点还应该以的低值结束 $f(y;\theta)$ $\exp(-0.5(y-\mu)^2/\sigma^2)$ $\mu$ $y$ $\tau$ 当您评估对数似然性时，可以解决问题-但由于浮点错误，此阶段该数量已经被评估为-Inf，所以一切都破了:)。

如果这是问题所在，则有一些可能的解决方案：

一种是将移到对数内。因此，与其评估 $\tau$

$\tau \log(f(y|\theta))$

评估

$\log \left( f(y|\theta)^\tau \right)$ 。

在数学上是相同的，但请考虑当和为时会发生什么。目前您得到： $f(y|\theta)$ $\tau$ $\approx 0$

$0 \log (0) = 0 (-Inf) = NaN$

但是随着tau的移动，你得到

$\log \left( 0^0\right) = \log(1) = 0$

假设R的值为（我不知道它是否符合条件，因为我倾向于使用matlab） $0^0 = 1$

另一个解决方案是扩展对数内的内容。假设您使用自然对数：

$\tau \log(f(y|\theta))$

$= \tau \log(\exp(-0.5(y-\mu)^2/\sigma^2)/\sqrt{2\pi\sigma^2})$

$= -0.5\tau \log(2 \pi\sigma^2) - 0.5 \tau \frac{(y-\mu)^2}{\sigma^2}$ 。

在数学上是相同的，但是应该避免浮点误差，因为您避免了计算较大的负功率。这意味着您不能再使用内置的规范评估功能，但是如果这不是问题，则可能是更好的答案。例如，假设我们有这样的情况

$-0.5\frac{(y-\mu)^2}{\sigma^2} = -0.5*40^2 = -800$ 。

按照我的建议进行评估，您得到-800。但是，在matlab中，如果我们对记录进行得到。 $\log(\exp(-800)) = \log(0) = -Inf$

— 拍
source

嗯，说实话：我还不足以使这件事起作用。我感兴趣的是：我的算法能否获得与mixtools包的已实现版本相同的结果。但是从我的角度来看，这似乎是在向月亮求助。但是我想您会尽力而为，所以我会接受的！谢谢！

— Stat Tistician