Questions tagged «expectation-maximization»

在缺少数据的情况下通常用于最大似然估计的优化算法。

9
数值示例,以了解期望最大化
我试图很好地掌握EM算法,以便能够实现和使用它。我花了一整天的时间阅读该理论和一篇论文,其中使用EM使用来自雷达的位置信息来跟踪飞机。老实说,我认为我不完全理解基本思想。有人可以给我指出一个数值示例,该示例显示EM的几次迭代(3-4),以解决一个更简单的问题(例如估算高斯分布的参数或正弦序列的序列或拟合直线)。 即使有人可以将我指向一段代码(带有合成数据),我也可以尝试单步执行代码。

3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?


1
贝叶斯和EM之间的关系
我在某处读到,变分贝叶斯方法是EM算法的概括。确实,算法的迭代部分非常相似。为了测试EM算法是否是Variational Bayes的特殊版本,我尝试了以下方法: YYY是数据,是潜在变量的集合,是参数。在变分贝叶斯中,我们可以做一个近似,使得。当 s为简单,易于处理的分布。XXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ 由于EM算法找到了MAP点估计值,因此我认为,如果我使用Delta函数,则变分贝叶斯可以收敛到EM:。是通常在EM中完成的参数的第一个估计。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Θ1Θ1\Theta_1 当给出,,其最小化的KL发散由公式发现 上面的公式简化为,此步骤等效于Expectation步骤EM算法!Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Q1X(X)QX1(X)Q^1_X(X)Q1X(X)=exp(EδΘ1[lnP(X,Y,Θ)])∫exp(EδΘ1[lnP(X,Y,Θ)])dXQX1(X)=exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])∫exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}Q1X(X)=P(X|Θ1,Y)QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y) 但是我不能将“最大化”步骤作为此步骤的延续。在下一步中,我们需要计算,根据变分贝叶斯迭代规则,这是:Q2Θ(Θ)QΘ2(Θ)Q^2_\Theta(\Theta) Q2Θ(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])∫exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘQΘ2(Θ)=exp⁡(EP(X|Θ1,Y)[ln⁡P(X,Y,Θ)])∫exp⁡(EP(X|Θ1,Y)[ln⁡P(X,Y,Θ)])dΘQ^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta} VB和EM算法是否真的以这种方式连接?我们如何得出EM作为变分贝叶斯的特例,我的方法是正确的吗?

2
为什么期望最大化算法可以保证收敛到局部最优值?
我已经阅读了一些关于EM算法的解释(例如,来自Bishop的模式识别和机器学习以及Roger和Gerolami的第一门机器学习课程)。我理解EM的派生是可以的。我还理解了为什么算法会覆盖某些东西:在每一步我们都会改善结果,并且似然性以1.0为界,因此,通过使用一个简单的事实(如果函数增加并且有界则收敛),我们知道算法会收敛为一些解决方案。 但是,我们怎么知道它是局部最小值?在每一步中,我们仅考虑一个坐标(潜在变量或参数),因此我们可能会遗漏某些东西,例如局部最小值要​​求同时移动两个坐标。 我相信这与EM是一个实例的一般爬山算法类似。因此,对于一般的爬山算法,对于函数f(x,y)= x * y,我们会遇到这个问题。如果我们从(0,0)点开始,那么只有同时考虑两个方向,我们才能从0值向上移动。

4
威布尔分布的EM最大似然估计
注意: 我发布的是我的一位前学生的问题,由于技术原因,他自己无法发布。 给定来自pdf的Weibull分布的iid样本, 那里是有用的缺失变量表示 ,因此可以使用关联的EM(期望最大化)算法来查找的MLE ,而不是直接使用数值优化?x1,…,xnx1,…,xñx_1,\ldots,x_nFķ(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

3
为什么要使用期望最大化算法?
据我所知,当将似然性参数的偏导数设为零时,可以使用EM算法找到最大似然性,从而给出了一组无法解析求解的方程。但是需要EM算法来代替使用某种数值技术来尝试针对所提及的方程组的约束找到最大可能性。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
手动执行EM算法
我想手动实现EM算法,然后比较它的结果normalmixEM的mixtools包。当然,如果它们都能带来相同的结果,我将很高兴。主要参考文献是Geoffrey McLachlan(2000),有限混合模型。 我有两个高斯混合密度,一般形式下,对数似然由(McLachlan第48页)给出: 日志大号C(Ψ )= Σ我= 1G∑j = 1ñž我Ĵ{ 日志π一世+ 日志F一世(y一世; θ一世)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. 所述是,如果观察是从个元件密度,否则。该是正态分布的密度。所述是混合物的比例,所以是概率,即观察是从第一高斯分布和是概率,即观察是从第二高斯分布。ž我Ĵzijz_{ij}1个11一世ii000F一世fif_iππ\piπ1个π1\pi_1π2π2\pi_2 该ê步现在,条件期望的计算: Q (Ψ ; Ψ(0 ))= EΨ (0 ){ 日志大号C(| Ψ )| ÿ} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 经过一些推导得出结果(第49页): τ一世(yĴ; Ψ(k ))= π(k )一世F一世(yĴ; θ(k )一世F(yĴ; …

5
期望最大化算法的动机
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 在EM算法的方法,我们用Jensen不等式在到达logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz θ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz 我读过EM的所有内容都只能解决这个问题,但是我一直对不了解EM算法为何自然产生的解释感到不安。我了解到可能性通常是用来处理加法而不是乘法,但是定义中的出现对我来说没有动力。为什么要考虑\ log而不考虑其他单调函数?由于种种原因,我怀疑期望最大化背后的“含义”或“动机”在信息论和足够的统计方面有某种解释。如果有这样的解释,那将不仅仅是抽象算法而已。loglog\logloglog\logθ(k+1)θ(k+1)\theta^{(k+1)}loglog\log

2
为什么直接在计算上优化高斯混合很难?
考虑混合高斯的对数似然: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 我想知道为什么要直接最大化该方程在计算上很困难?我一直在寻找一个清晰的直觉,以了解为什么它应该如此艰难,或者为什么要对其为何如此艰难做出更严格的解释。这个问题是NP完整的,还是我们还不知道如何解决?这是我们诉诸使用EM(期望最大化)算法的原因吗? 符号: SnSnS_n =训练数据。 x(t)x(t)x^{(t)} =数据点。 θθ\theta =一组参数,指定高斯,其均值,标准偏差以及从每个聚类/类/高斯生成点的概率。 pipip_i =从聚类/类/高斯i生成点的概率。

1
训练基本的马尔可夫随机场以对图像中的像素进行分类
我正在尝试学习如何使用马尔可夫随机场来分割图像中的区域。我不了解MRF中的某些参数,或者为什么我执行的期望最大化有时无法收敛到解决方案。 从贝叶斯定理开始,我有,其中是像素的灰度值,是类标签。我选择对使用高斯分布,而是使用MRF建模的。y x p (y | x )p (x )p(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)yyyxXxp (ÿ| X)p(ÿ|X)p(y|x)p (x )p(X)p(x) 我为MRF使用了一个电位函数,该函数既具有成对的集团电位,又具有被分类像素的类别标签的电位值。单个像素电势值是某个常数,取决于类标签。对成对连接的4个邻居评估成对势函数,如果邻居具有与此像素相同的类别标签,则返回正如果标签不同则返回。X β - βαα\alphaXXxββ\beta- β-β-\beta 在期望最大化的点上,我必须找到最大化对数似然期望值的和的值,我使用了数值优化方法(尝试了共轭梯度,BFGS,鲍威尔方法),但是总是会发现的值将变为负值, s将会急剧增加,并且一两次或之后的迭代,整个图像将仅分配给一个标签(背景:使用ICM完成给定MRF参数的类标签的分配) 。如果我删除了alpha,即仅使用成对的集团势,那么期望最大化就可以了。β β αα (x )α(X)\alpha(x)ββ\betaββ\betaαα\alpha 请说明每个课程的Alpha用途是什么?我以为它们与图像中存在的该类的数量有关,但似乎无关。一旦我使MRF仅以成对电位工作,我便将其与简单的高斯混合模型进行了比较,发现它们产生的结果几乎相同。我期望成对的电位能使课程顺利一些,但这并没有发生。请告知我哪里出了问题。

1
EM,有一个直观的解释吗?
EM程序对初学者来说或多或少是黑魔法。使用监督数据估计HMM的参数(例如)。然后解码未加标签的数据,使用向前或向后“计数”事件,就好像该数据已被加标签一样。为什么这会使模型更好?我确实对数学有所了解,但我一直希望对数学有所了解。

2
为什么期望最大化对于混合模型很重要?
有许多文献强调混合模型(高斯混合模型,隐马尔可夫模型等)上的期望最大化方法。 为何EM重要?EM只是一种优化方法,并未广泛用作基于梯度的方法(梯度体面或牛顿/准牛顿法)或此处讨论的其他无梯度方法。此外,EM仍然存在局部极小问题。 是因为该过程是直观的并且可以轻松地转换为代码吗?还是其他原因?

2
为什么不使用梯度下降优化k均值?
我知道k-均值通常使用优化的期望最大化。但是,我们可以像优化其他任何函数一样优化其损失函数! 我发现一些论文实际上对大型k均值使用随机梯度下降法,但是我的问题无法得到解答。 那么,有人知道为什么吗?是因为期望最大化收敛得更快了吗?是否有任何特别的保证吗?还是历史原因?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.