Questions tagged «expectation-maximization»

在缺少数据的情况下通常用于最大似然估计的优化算法。

2
EM算法练习题
这是期中考试的练习题。问题是一个EM算法示例。我在(f)部分遇到了麻烦。我列出了要完成的部分(a)-(e),以防万一我之前弄错了。 令是速率为独立指数随机变量。不幸的是,没有观察到实际的值,我们仅观察值是否落在特定间隔内。令,和 对于。观察到的数据由。X1,…,XnX1,…,XnX_1,\ldots,X_nθθ\thetaXXXXXXG1j=1{Xj&lt;1}G1j=1{Xj&lt;1}G_{1j} = \mathbb{1}\left\{X_j < 1\right\}G2j=1{1&lt;Xj&lt;2}G2j=1{1&lt;Xj&lt;2}G_{2j} = \mathbb{1}\left\{1< X_j<2\right\}G3j=1{Xj&gt;2}G3j=1{Xj&gt;2}G_{3j} = \mathbb{1}\left\{X_j > 2\right\}j = 1 ,… ,nĴ=1个,…,ñj=1,\ldots,n(G1 Ĵ,G2 Ĵ,G3 Ĵ)(G1个Ĵ,G2Ĵ,G3Ĵ)(G_{1j},G_{2j},G_{3j}) (a)给出观察到的数据可能性: L (θ | G )=∏j = 1ñ镨{XĴ&lt; 1 }G1 Ĵ镨{ 1 &lt;XĴ&lt; 2 }G2 Ĵ镨{XĴ&gt; 2 }G3 Ĵ=∏j = 1ñ(1−e−θ)G1j(e−θ−e−2θ)G2j(e−2θ)G3jL(θ|G)=∏j=1nPr{Xj&lt;1}G1jPr{1&lt;Xj&lt;2}G2jPr{Xj&gt;2}G3j=∏j=1n(1−e−θ)G1j(e−θ−e−2θ)G2j(e−2θ)G3Ĵ\begin{align*} L(\theta | G) &= \prod_{j=1}^n \text{Pr}\left\{X_j < 1\right\}^{G_{1j}}\text{Pr}\left\{12\right\}^{G_{3j}}\\ …

1
从基于GPS的报告中确定未知数量的现实世界位置
我正在开发一些软件,该软件应从多个基于GPS的报告中确定现实世界的位置(高速摄像头)。当报告位置时,用户将在驾驶,因此报告非常不准确。为了解决该问题,我必须对同一位置的报告进行聚类并计算平均值。 我的问题是关于如何将这些报告归类。我阅读了有关期望最大化算法和k均值聚类的信息,但据我了解,我需要提前确定实际位置的数量。 是否有其他算法不需要真正位置的确切数目,而是使用一些边缘条件(最小距离)? 报告包含经度,纬度和精度(以米为单位)。没有名称或其他可用于识别重复项的名称。 另一个障碍可能是这很常见,一个真实位置的报告只有一个。这使得很难将异常数据与正常数据区分开。

2
使用EM算法进行记录链接
我对按名字,姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行,如果可以,怎么办? 以第一个记录中的以下记录为例:Carl McCarthy,1967。我将搜索第二个数据集中的所有记录,并在第一个名字和Carl之间分配一个jaro-winkler距离,在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率,出生年龄之间的距离也是概率。我们将这3个概率(乘以平均值)相乘为1。 现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先,我们希望P(第一个匹配项)&gt; =阈值。其次,我们还希望P(第二次匹配)/ P(第二次匹配)&gt; =如果P(第二次匹配)阈值存在。第三,我们希望第二个数据集中的第一个匹配项与Carl McCarthy,1967年的第一个数据集中的匹配人数不超过1个。 如何确定这些阈值? 我更喜欢Stata和/或Perl中的方法。 参见,例如: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (尽管如此,我仍然没有完全理解为什么或如何,以及输入和输出是什么,以及假设和约束的严格性)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.