Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。

6
是否有一个示例,其中MLE产生了均值的偏差估计?
您能否提供一个偏向均值​​的MLE估计器的示例? 我不是要寻找一个通过违反规则性条件而破坏MLE估计值的示例。 我在互联网上看到的所有示例均涉及方差,但似乎找不到与均值相关的任何内容。 编辑 @MichaelHardy提供了一个示例,其中在某些建议的模型下,我们使用MLE得到均匀分布平均值的偏差估计。 然而 https://zh.wikipedia.org/wiki/Uniform_distribution_(连续)#Estimation_of_midpoint 表明MLE是平均的一致最小无偏估计,显然在另一个提出的模型。 在这一点上,对于我来说,如果MLE估计是非常假设的模型依赖的,而不是模型中立的样本均值估计器,那么对MLE估计的含义还不是很清楚。最后,我对估计总体有兴趣,并且并不真正在乎假设模型的参数估计。 编辑2 正如@ChristophHanck展示的那样,该模型带有附加信息,但引入了偏差,但未能降低MSE。 我们还有其他结果: http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(P61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(幻灯片2) 的http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(幻灯片5) “如果存在θ的最有效的无偏估计量ˆθ(即ˆθ是无偏的,并且其方差等于CRLB),则将使用最大似然估计法进行估计。” “此外,如果一个有效的估计存在,它是ML估计”。 由于具有免费模型参数的MLE是无偏且有效的,因此根据定义,这是“最大似然估计器”吗? 编辑3 @AlecosPapadopoulos在数学论坛上有一个具有Half Normal分布的示例。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 它没有像在统一情况下那样锚定其任何参数。我想说这可以解决,尽管他还没有证明均值估计器的偏见。

1
用给定的MLE模拟随机样本
这个交叉验证问题要求模拟一个以固定金额为条件的样本,使我想起了乔治•卡塞拉(George Casella)提出的一个问题。 f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)对于一个给定的值,有以模拟IID样品一个通用的方法上的MLE的值有条件?θθ\thetaθ(X 1,... ,X Ñ)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) 例如,采用分布,位置参数为,密度为如果我们如何以条件来模拟?在此示例中,没有封闭形式的表达式。T5T5\mathfrak{T}_5μμ\muf(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|\mu)=\dfrac{\Gamma(3)}{\Gamma(1/2)\Gamma(5/2)}\,\left[1+(x-\mu)^2/5\right]^{-3}(X1,…,Xn)∼iidf(x|μ)(X1,…,Xn)∼iidf(x|μ)(X_1,\ldots,X_n)\stackrel{\text{iid}}{\sim} f(x|\mu)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)μ^(X1,…,Xn)=μ0μ^(X1,…,Xn)=μ0\hat{\mu}(X_1,\ldots,X_n)=\mu_0T5T5\mathfrak{T}_5μ^(X1,…,Xn)μ^(X1,…,Xn)\hat{\mu}(X_1,\ldots,X_n)

2
一个不可能的估计问题?
题 负二项式(NB)分布的方差始终大于其均值。当样本均值大于其方差时,尝试以最大似然或矩估计拟合NB的参数将失败(没有有限参数的解决方案)。 但是,从NB分布获取的样本的平均值可能大于方差。这是R中的可复制示例。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NB将产生无法估计参数的样本的可能性为非零(通过最大似然法和矩量法)。 可以对此样本给出合理的估计吗? 当没有为所有样本定义估计量时,估计理论怎么说? 关于答案 @MarkRobinson和@Yves的答案使我意识到参数化是主要问题。NB的概率密度通常写为 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k 或 P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 在第一个参数化下,每当样本的方差小于均值时,最大似然估计为,因此关于p不能说有用。根据第二,它是(∞ ,ˉ X),所以我们可以给的合理估计米。最后,@ MarkRobinson表明我们可以使用r解决无限值问题(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmm代替r。r1+rr1+r\frac{r}{1+r}rrr 总之,这个估计问题从根本上没有错,只是您不能总是对每个样本给出和p的有意义的解释。公平地说,这两个答案中都包含了这些想法。我选择@MarkRobinson中的那个作为他给出的补码的正确选择。rrrppp

3
当只有汇总统计信息可用时,如何进行估算?
这部分是由于以下问题及其后续讨论引起的。 假设观察到iid样本。目的是估计。但是原始样品不可用。相反,我们拥有的是样本一些统计信息。假设是固定的。我们如何估算?在这种情况下,最大似然估计器是什么?θ Ť 1,。。。,Ť ķ ķ θXi∼F(x,θ)Xi∼F(x,θ)X_i\sim F(x,\theta)θθ\thetaT1,...,TkT1,...,TkT_1,...,T_kkkkθθ\theta


3
拟最大似然估计(QMLE)背后的想法和直觉
问题:拟最大似然估计(QMLE;又称伪最大似然估计,PMLE)背后的思想和直觉是什么?当实际误差分布与假定误差分布不匹配时,使估算器工作的原因是什么? QMLE 的Wikipedia站点很好(简要,直观),但是我可以使用更多的直觉和细节,也许还可以作为例证。其他参考文献也很受欢迎。(我记得翻阅了很多计量经济学教科书,以寻找有关QMLE的资料,而令我惊讶的是,QMLE仅涵盖其中一到两个,例如Wooldridge “横截面和面板数据的计量经济学分析”(2010年),第13章第11节,第502-517页。)

2
为什么要精确使用观察到的Fisher信息?
在标准的最大似然设定(IID样品从一些分布密度˚F ý(Ý | θ 0)),并在正确指定模型的情况下,Fisher信息由下式给出ÿ1个,… ,YñY1,…,YnY_{1}, \ldots, Y_{n}Fÿ(y| θ0fy(y|θ0f_{y}(y|\theta_{0} 一世(θ )= − Eθ0[ ∂2θ2lnFÿ(θ )]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] 相对于生成数据的真实密度的期望值。我已经阅读了观察到的Fisher信息 Ĵ^(θ )= - ∂2θ2lnFÿ(θ )J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) 之所以使用,主要是因为在某些情况下,计算(预期)Fisher信息所涉及的积分可能不可行。是什么让我困惑的是,即使积分是可行的,期望有相对于真实模型,即涉及到未知参数值取。如果是这样的情况下,它似乎不知道θ 0是不可能的计算予。这是真的?θ0θ0\theta_{0}θ0θ0\theta_{0}一世II

3
在R中拟合t分布:缩放参数
我如何拟合t分布的参数,即与正态分布的“均值”和“标准偏差”相对应的参数。我假设它们被称为t分布的“均值”和“缩放/自由度”? 以下代码通常会导致“优化失败”错误。 library(MASS) fitdistr(x, "t") 我必须先缩放x还是转换成概率?如何做到最好?

2
optim和glm之间的残差标准误差
我尝试使用optim拟合glm甚至nlsR函数的简单线性回归的结果来重现。 参数估计是相同的,但是残差方差估计和其他参数的标准误差并不相同,尤其是在样本量较小时。我想这是在最大似然法和最小二乘法之间计算剩余标准误差的方式上的差异(除以n或除以n-k + 1参见示例中的波纹管)。 我从网上阅读的书中了解到优化不是一项简单的任务,但我想知道是否有可能以简单的方式重现glm使用时的标准误差估计optim。 模拟小型数据集 set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) 乐观估计 negLL <- function(beta, y, x) { b0 <- beta[1] b1 …

2
观察到的信息矩阵是否是预期信息矩阵的一致估计?
我试图证明在弱一致性最大似然估计器(MLE)处评估的观测信息矩阵是预期信息矩阵的弱一致性估计器。这是被广泛引用的结果,但没有人提供参考或证明(我已经用尽我认为Google搜索结果的前20页和我的统计资料教科书)! 使用MLE的弱一致序列,我可以使用大数弱定律(WLLN)和连续映射定理来获得所需的结果。但是,我相信不能使用连续映射定理。相反,我认为需要使用统一的大数定律(ULLN)。有人知道有证明这一点的参考文献吗?我尝试了ULLN,但为简洁起见,现在省略。 对于这个问题的冗长,我深表歉意,但必须引入一些符号。表示法如下(我的证明在结尾)。 假设我们有随机变量的IID样本{Y1,…,YN}\{Y_1,\ldots,Y_N\}与密度f(Y~|θ)f(\tilde{Y}|\theta),其中θ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k}(这里Y~\tilde{Y}是具有相同密度的只是一般随机变量作为样本的任何成员)。向量Y=(Y1,…,YN)TY=(Y_1,\ldots,Y_N)^{T}是所有样本向量的向量,其中Yi∈RnY_{i}\in\mathbb{R}^{n}所有i=1,…,Ni=1,\ldots,N。密度的真实参数值是θ0\theta_{0}和 θ Ñ(Ý)是的弱一致最大似然估计(MLE) θ 0。根据规律性条件,Fisher信息矩阵可以写为θ^N(Y)\hat{\theta}_{N}(Y)θ0\theta_{0} I(θ)=−Eθ[Hθ(logf(Y~|θ)]I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right] 其中Hθ{H}_{\theta}是Hessian矩阵。等效样本为 IN(θ)=∑i=1NIyi(θ),I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta), 其中Iyi=−Eθ[Hθ(logf(Yi|θ)]I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]。所观察到的信息矩阵是; J(θ)=−Hθ(logf(y|θ)J(\theta) = -H_\theta(\log f(y|\theta), (有些人的需求矩阵在评估θ,但有些却没有)。样本观察信息矩阵为:θ^\hat{\theta} JN(θ)=∑Ni=1Jyi(θ)J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta) 其中Jyi(θ)=−Hθ(logf(yi|θ)J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)。 我可以证明在所述估计的概率收敛到我(θ ),但不ñ - 1 Ĵ Ñ(θ Ñ(Ý ))到我(θ 0)N−1JN(θ)N^{-1}J_N(\theta)I(θ)I(\theta)N−1JN(θ^N(Y))N^{-1}J_{N}(\hat{\theta}_N(Y))I(θ0)I(\theta_{0})。到目前为止,这是我的证明; Now (JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs} is element (r,s)(r,s) of JN(θ)J_N(\theta), for any r,s=1,…,kr,s=1,\ldots,k. If the sample …

3
MLE是否需要iid数据?还是只是独立的参数?
使用最大似然估计(MLE)估计参数涉及评估似然函数,该函数将样本(X)出现的概率映射为给定分布族(P(X = x |θ )超过θ的可能值(请注意:我对吗?)我看到的所有示例都涉及通过取F(X)的乘积来计算P(X = x |θ),其中F是局部分布θ和X的值是样本(向量)。 由于我们只是在乘以数据,因此数据是否独立?例如,我们不能使用MLE拟合时间序列数据吗?还是参数必须独立?

3
为单变量指数Hawkes过程寻找MLE
单变量指数霍克斯过程是一个自激点过程,事件到达率为: λ(t)=μ+∑ti&lt;tαe−β(t−ti)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} 其中是事件的到达时间。t1,..tnt1,..tn t_1,..t_n 对数似然函数为 −tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln(μ+αe−β(tj−ti))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} 可以递归计算: −tnμ+αβ∑(e−β(tn−ti)−1)+∑ln(μ+αR(i))−tnμ+αβ∑(e−β(tn−ti)−1)+∑ln⁡(μ+αR(i)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum{\ln(\mu+\alpha R(i))} R(i)=e−β(ti−ti−1)(1+R(i−1))R(i)=e−β(ti−ti−1)(1+R(i−1)) R(i) = e^{-\beta(t_i-t_{i-1})} (1+R(i-1)) R(1)=0R(1)=0 R(1) = 0 我可以使用什么数值方法找到最大似然法?最简单的实用方法是什么?



3
为什么在嵌套的var-covar模型中进行选择时必须使用REML(而不是ML)?
关于线性混合模型随机效应的模型选择的各种描述指示使用REML。我在某种程度上知道REML和ML之间的区别,但是我不明白为什么要使用REML,因为ML有偏见。例如,使用ML对正态分布模型的方差参数进行LRT是否错误(请参见下面的代码)?我不明白为什么在模型选择中,没有偏见比成为ML更重要。我认为最终的答案必须是“因为REML的模型选择比ML的模型选择更好”,但我想知道的更多。我没有阅读LRT和AIC的派生词(我不足以全面了解它们),但是如果在派生词中明确使用REML,只是知道实际上就足够了(例如, n &lt;- 100 a &lt;- 10 b &lt;- 1 alpha &lt;- 5 beta &lt;- 1 x &lt;- runif(n,0,10) y &lt;- rnorm(n,a+b*x,alpha+beta*x) loglik1 &lt;- function(p,x,y){ a &lt;- p[1] b &lt;- p[2] alpha &lt;- p[3] -sum(dnorm(y,a+b*x,alpha,log=T)) } loglik2 &lt;- function(p,x,y){ a &lt;- p[1] b &lt;- p[2] alpha &lt;- p[3] beta &lt;- …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.