Questions tagged «expectation-maximization»

在缺少数据的情况下通常用于最大似然估计的优化算法。


3
通过重复观察的数量来估计被抽样人群的数量
假设我有五千万个独特的事物,我采样了1000万个样本(有替换样本)...我附上的第一张图显示了我对相同的“事物”进行了多少次采样,这与人口大于我的样本。 但是,如果我的人口只有1000万,而我又进行了1000万采样,则如第二幅图所示,我将更频繁地对同一事物进行采样。 我的问题是-从我的观察频率表(条形图中的数据)中,当未知时,是否有可能获得原始人口规模的估计?如果您可以提供如何在R中进行此操作的指针,那就太好了。

4
从样本中分离出两个总体
我正在尝试从单个数据集中分离出两组值。我可以假设其中一个总体是正态分布的,并且至少是样本大小的一半。第二个的值都低于或高于第一个的值(分布未知)。我要尝试做的是找到上限和下限,以将正常分布的人群与其他人群隔离开来。 我的假设为我提供了起点: 样本四分位数范围内的所有点均来自正态分布的总体。 我正在尝试测试是否将异常值从样本的其余部分中提取出来,直到它们不适合正态分布总体的第3个标准差。这不是理想的,但似乎会产生足够的结果。 我的假设在统计上合理吗?有什么更好的方法来解决这个问题? ps请修复某人的标签。

2
MLE是否总是意味着我们知道数据的基础PDF,而EM是否意味着我们不知道?
关于MLE(最大似然估计),以及与EM(期望最大化)之间的联系,我想澄清一些简单的概念性问题。 据我了解,如果有人说“我们使用了MLE”,这是否自动意味着他们拥有其数据PDF的显式模型?在我看来,答案是肯定的。换句话说,如果有人在任何时候说“ MLE”,可以公平地问他们假设使用什么PDF。这是正确的吗? 最后,在EM上,我的理解是,在EM中,我们实际上并不知道-或需要知道我们数据的基础PDF。这是我的理解。 谢谢。

2
在与威尔克斯定理的有限混合中找到高斯数?
假设我有一组独立的,均匀分布的单变量观测值以及关于x是如何产生的两个假设:xxxxxx : x是从均值和方差未知的单个高斯分布中得出的。H0H0H_0xxx : x是由两个均值,方差和混合系数未知的高斯混合而成的。HAHAH_Axxx 如果我理解正确,则这些是嵌套模型,因为如果将两个高斯的参数约束为相同或将两个高斯之一的混合系数约束为零,则可以用H A来描述表示的模型。。 H0H0H_0HAHAH_A 因此,看来您应该能够使用EM算法来估计的参数,然后使用Wilks定理来确定H A下数据的可能性是否明显大于H 0下。假设EM算法将在此处收敛到最大可能性,这是一个小小的信念飞跃,但这是我愿意做的。HAHAH_AHAHAH_AH0H0H_0 我在蒙特卡洛模拟中对此进行了尝试,假设比H 0(第二个高斯和混合参数的均值和方差)多3个自由度。当我从H 0模拟数据时,我得到的P值分布基本上是不均匀的,并且丰富了较小的P值。(如果EM不能收敛到真正的最大似然,则可以预期正好相反。)我对产生这种偏差的Wilks定理的应用有什么问题?HAHAH_AH0H0H_0H0H0H_0

2
隐马尔可夫模型中初始过渡概率的意义
在隐马尔可夫模型中为过渡概率指定某些初始值有什么好处?最终,系统将学习它们,那么赋予随机值以外的其他值又有什么意义呢?底层算法是否会像Baum-Welch这样有所作为? 如果我从一开始就非常准确地知道了转移概率,并且我的主要目的是预测从隐藏状态到观测值的输出概率,那么您对我有什么建议?

1
您如何使用EM算法为零膨胀泊松模型的潜在变量公式计算MLE?
通过 为样本定义零膨胀的Poisson回归模型 ,并进一步假设参数和满足(y1,…,yn)(y1,…,yn)(y_1,\ldots,y_n)ÿ一世= { 0ķ概率为p 一世+ (1 − p一世)e- λ一世概率(1 − p 一世)e- λ一世λķ一世/ k!Yi={0with probability pi+(1−pi)e−λikwith probability (1−pi)e−λiλik/k! Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! \end{cases}λ =( λ1个,… ,λñ)λ=(λ1,…,λn)\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)p =( p1个,… ,pñ)p=(p1,…,pn)\textbf{p} = (p_1, \dots, p_n) …


1
如何使矩阵为正定?
我正在尝试为以下因素分析模型实现EM算法; w ^Ĵ= μ + B aĴ+ eĴ对于j = 1 ,… ,nWj=μ+Baj+ejforj=1,…,nW_j = \mu+B a_j+e_j \quad\text{for}\quad j=1,\ldots,n 其中是p维随机向量,是潜变量的q维向量,是参数的pxq矩阵。一个Ĵ乙w ^ĴWjW_j一个Ĵaja_j乙BB 由于该模型使用了其他假设,因此我知道,其中是误差项的方差协方差矩阵, = diag(,,...,)。d È Ĵ d σ 2 1 σ 2 2 σ 2 pw ^Ĵ〜ñ(μ ,B B′+ D )Wj∼N(μ,BB′+D)W_j\sim N(\mu, BB'+D)dDDËĴeje_jdDDσ21个σ12\sigma_1^2σ22σ22\sigma_2^2σ2pσp2\sigma_p^2 为了使EM算法正常工作,我正在进行涉及和矩阵估计的圆顶迭代,并且在这些迭代过程中,我在每次迭代中使用和新估计来计算的逆。不幸的是,在迭代过程中,失去了正定性(但不应该这样做,因为它是一个方差-协方差矩阵),这种情况破坏了算法的收敛性。我的问题是:D B B ' + D B D B …

3
HMM拟合中MLE和Baum Welch之间的区别
在这个受欢迎的问题中,高评价的答案使MLE和Baum Welch在HMM拟合中分开。 对于训练问题,我们可以使用以下3种算法:MLE(最大似然估计),Viterbi训练(不要与Viterbi解码混淆),Baum Welch =前向后向算法 但在维基百科中,它说 Baum-Welch算法使用众所周知的EM算法来找到参数的最大似然估计 那么,MLE和Baum-Welch算法之间是什么关系? 我的尝试:Baum-Welch算法的目标是使可能性最大化,但它使用专用算法(EM)来解决优化问题。我们仍然可以通过使用其他方法(例如,梯度体面)来最大程度地提高似然度。这就是为什么答案将两个算法分开的原因。 我是对的,谁能帮我澄清一下?

2
从纸上帮助期望最大化:如何包括事先分配?
该问题基于题为:使用耦合的辐射传输-扩散模型的漫射光学层析成像中的图像重建 下载链接 作者应用具有未知向量稀疏正则化的EM算法来估计图像的像素。该模型由 μl1升1个l_1μμ\mu y=Aμ+e(1)(1)ÿ=一个μ+Ëy=A\mu + e \tag{1} 估算值在等式(8)中给出为 μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=精氨酸⁡米一个Xln⁡p(ÿ|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} 在我的情况下,我已经将视为长度为的过滤器,而是代表过滤器的向量。所以,大号μ大号× 1μμ\muL大号Lμμ\mathbf{\mu}L×1大号×1个L \times 1 该模型可以重写为y(n)=μTa(n)+v(n)(3)(3)ÿ(ñ)=μŤ一个(ñ)+v(ñ)y(n) = \mathbf{\mu^T}a(n) + v(n) \tag{3} 问题:问题公式:(n乘以1)是未观察到的输入,是零均值,方差未知加性噪声。MLE解决方案将基于期望最大化(EM)。 { È (Ñ )} σ 2 ëμ(n)μ(n){\mu(n)}{e(n)}{e(n)}\{e(n)\}σ2Ëσe2\sigma^2_e 在本文中,方程(19)是函数-完整的对数似然性,但是对于我而言,我不理解如何在完整的对数似然表达式中包含的分布。 甲,μ一个AA甲,μA,μA, \mu 使用 EM(包括先验分布)的完全对数似然是什么?ÿyy

1
MCMC / EM的局限性?EM上的MCMC?
我目前正在使用R中的JAGS学习分层贝叶斯模型,并使用Python(“黑客的贝叶斯方法”)学习pymc 。 我可以从这篇文章中得到一些直觉:“最终,您会得到一堆看起来像是在某种程度上设法从想要了解的复杂分布中提取独立样本的数字。” 就像我可以给出条件概率,然后我可以基于条件概率生成无记忆过程。当我生成过程足够长的时间时,联合概率可以收敛。然后我可以在生成的序列的末尾取一堆数字。就像我从复杂的联合分布中提取独立样本一样。例如,我可以制作直方图,它可以近似分布函数。 然后我的问题是,我是否需要证明MCMC是否针对某个模型收敛?我很高兴知道这一点,因为我以前学习了GMM和LDA(图形模型)的EM算法。如果我只使用MCMC算法而不证明它是否收敛,那么它可以比EM节省更多时间。由于我将必须计算预期的对数似然函数(必须计算后验概率),然后使预期的对数似然率最大化。它显然比MCMC麻烦(我只需要表述条件概率)。 我也想知道似然函数和先验分布是否共轭。这是否意味着MCMC必须收敛?我想知道MCMC和EM的局限性。

1
EM算法是否始终如一地估计高斯混合模型中的参数?
我正在研究高斯混合模型,自己提出这个问题。 假设的基础数据从混合物产生高斯分布和他们每个人都有一个平均向量μ ķ ∈ [R p,其中1 ≤ ķ ≤ ķ和他们每个人都有相同的协方差矩阵Σ,并假定此Σ是对角矩阵。并假设混合比为1 / K,即每个簇具有相同的权重。ķKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\SigmaΣΣ\Sigma1/K1/K1/K 因此,在这个理想的例子中,唯一的工作是估计均值向量μ ķ ∈ [R p,其中1 ≤ ķ ≤ ķ和共方差矩阵Σ。KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\Sigma 我的问题是:如果我们用EM算法,我们将能够始终如一地估计和Σ,即,当样本大小ñ →交通∞,将EM算法产生的估计实现的真正价值μ ķ和Σ?μkμk\mu_kΣΣ\Sigman→∞n→∞n\rightarrow\inftyμkμk\mu_kΣΣ\Sigma

1
具有二元混合物分布的EM算法的收敛
我有一个混合模型,我想要找到给定一组数据xxx和一组部分观测数据的最大似然估计量zzz。我已经实现两个E-步骤(计算的期望zzz给定xxx和电流参数θkθk\theta^k),和M-步骤,以减少给定的期望的负对数似然zzz。 据我了解,每次迭代的最大可能性都在增加,这意味着负对数似然性必须在每次迭代中都在减少吗?但是,正如我所进行的迭代,该算法实际上并未产生负对数似然率的递减值。相反,它可能同时在减少和增加。例如,这是直到收敛的负对数似然的值: 我在这里误解了吗? 另外,对于模拟数据,当我对真正的潜在变量(未观察到)执行最大似然法时,我的拟合度非常接近,表明没有编程错误。对于EM算法,它通常收敛到明显次优的解决方案,尤其是对于特定参数子集(即,分类变量的比例)。众所周知,该算法可以收敛到局部最小值或固定点,是否有常规的搜索试探法或同样地增加了找到全局最小值(或最大值)的可能性。对于这个特殊的问题,我相信会有很多未命中类别,因为对于双变量混合,两个分布之一采用概率为1的值(这是生命周期的混合,其中通过其中, z表示属于任一分布。指标 z当然在数据集中被检查。 T=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyzzzzzz 我从理论解开始添加了第二个数字(应该接近最优值)。但是,可以看出,可能性和参数从该解决方案变为明显较差的解决方案。 xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i是观测值所属人群的指标(由于其二元变量,我们只需要考虑0和1)。 z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0和。这还会产生以下完整的混合物分布:S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 f(t)=∑1i=0pif(t|z=i)=pf(t|z=1)f(t)=∑i=01pif(t|z=i)=pf(t|z=1)f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)和 S(t)=1−p+pSz(t)S(t)=1−p+pSz(t)S(t) = 1 - p + pS_z(t) 我们继续定义可能性的一般形式: L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τiL(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τi L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}} 现在,当,只能部分观察到,否则未知。完全可能性变为zzzδ=1δ=1\delta=1 L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τiL(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τi L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}} 其中是相应分布的权重(可能通过某些链接函数与某些协变量及其各自的系数相关联)。在大多数文献中,这简化为以下对数似然ppp ∑(ziln(p)+(1−p)ln(1−p)−τi(ziln(p)+(1−zi)ln(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))∑(ziln⁡(p)+(1−p)ln⁡(1−p)−τi(ziln⁡(p)+(1−zi)ln⁡(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - \tau_i\big(z_i …

1
为什么EM算法必须是迭代的?
假设您有一个具有单位的总体,每个单位都有一个随机变量。对于任何单位,您都会观察到值。我们想要一个\ lambda的估计。ññNX一世〜泊松(λ )X一世〜泊松(λ)X_i \sim \text{Poisson}(\lambda)n = N-ñ0ñ=ñ-ñ0n = N-n_0X一世> 0X一世>0X_i > 0λλ\lambda 有矩的方法和有条件的最大似然方法来获得答案,但是我想尝试EM算法。我得到的EM算法是 Q (λ− 1,λ ) = λ ( n +ñexp (λ− 1)- 1) +日志(λ )∑我= 1ñX一世+ K,问(λ-1个,λ)=λ(ñ+ñ经验值(λ-1个)-1个)+日志⁡(λ)∑一世=1个ñX一世+ķ, Q\left(\lambda_{-1}, \lambda\right) = \lambda \left(n + \frac{n}{\text{exp}(\lambda_{-1}) - 1}\right) + \log(\lambda)\sum_{i=1}^n{x_i} + K, 其中− 1-1个-1下标表示算法先前迭代的值,ķķK相对于参数。(我实际上认为括号中的小数中的ññn应该为n + 1ñ+1个n+1,但这似乎并不准确;这是另一个问题)。 为了具体说明,假设n = 10ñ=10n=10,∑X一世= 20∑X一世=20\sum{x_i} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.