最大似然估计如何具有近似正态分布？

我一直在阅读有关MLE的信息，这是一种生成拟合分布的方法。

我碰到一条声明，说最大似然估计“具有近似正态分布”。

这是否意味着如果我对数据和我尝试适应的分布族重复应用MLE多次，我得到的模型将是正态分布的吗？分布序列如何精确地具有分布？

normal-distribution estimation maximum-likelihood

— 马特·奥布莱恩
source

当您对数据重复应用MLE时，除非存在任何计算错误，否则每次都会得到完全相同的结果。考虑这一点的方法是考虑数据可能以不同方式出现的方式。当数据变化时，基于这些数据的ML估算也将随之变化，因此引起极大的估算变化是值得关注的。

— ub

嗯，是的...我没有考虑样本量...

— Matt O'Brien

看看这里的讨论： andrewgelman.com/2012/07/05/...

— HALVORSEN的Kjetil b

估计量是统计量，统计量具有抽样分布（也就是说，我们谈论的情况是，您不断绘制相同大小的样本，并查看获得的估计分布，每个样本一个）。

引用是指样本量接近无穷大时MLE的分布。

因此，让我们考虑一个明确的示例，即指数分布的参数（使用比例参数化，而不是速率参数化）。

F （ X; μ ） = \frac{_{1个}}{^{μ}} Ë^{- \frac{X}{μ}}; X > 0 ， μ > 0

$f(x;\mu) = \frac{_1}{^\mu} e^{-\frac{x}{\mu}};\quad x>0,\quad \mu>0$

在这种情况下 $\hat \mu = \bar x$ 。定理给我们作为样本量 $n$ 越来越大，（适当标准化）的分布 $\bar X$ （关于指数数据）将变得更加正常。

在此处输入图片说明

如果我们重复取样，每个样本的大小为1，则在左上方的图中将给出样本均值的密度。如果我们重复取样，每个样本的大小为2，则在右上方的图中给出了样本均值的密度；到n = 25时，在右下角，样本均值的分布已经开始看起来更加正常。

（在这种情况下，由于CLT，我们已经可以预测到这种情况。但是， $1/\bar X$ 还必须接近正态性，因为速率参数为ML $\lambda=1/\mu$ ...而且您无法从CLT中获得该信息-至少不是直接获得*-因为我们不再在谈论标准化方法，这就是CLT所要解决的问题）

现在考虑具有已知比例平均值的伽马分布的形状参数（此处使用均值和形状参数化，而不是比例和形状）。

在这种情况下，估算器不是封闭形式，并且CLT不适用于它（再次，至少不是直接*），但是似然函数的argmax是MLE。当您获取越来越大的样本时，形状参数估计的样本分布将变得更加正常。

在此处输入图片说明

这些是针对指示的样本大小（来自10000组γ形状参数的ML估计值的10000套ML估计）（前两组结果极其繁琐；它们被截断了一些，所以您可以可以在模式附近看到形状）。在这种情况下，到目前为止，模式附近的形状变化缓慢-但极端的尾巴已大大缩短。可能需要一个 $n$ 几百开始看起来正常。

*如前所述，CLT并不直接适用（显然，因为我们通常不处理手段）。但是，您可以在其中扩展某些内容时进行渐近论证 $\hat{\theta}$ 在一系列中，提出与高阶术语相关的适当论点，并调用CLT的形式以获取 $\hat{\theta}$ 接近常态（在合适的条件下）。

还请注意，当我们查看小样本（至少比无穷小时，小）时所看到的效果-在各种情况下有规律地朝着正常态发展，正如我们所见，是由上图引起的-这表明，如果我们考虑了标准化统计的cdf，可能存在类似于Berry Esseen不等式的版本，它基于与将CLT参数与MLE结合使用的方式类似的方法，该方法将提供关于采样分布可以多快地接近正态性的界限。我还没有看到这样的东西，但是发现它已经完成并不奇怪。

— Glen_b-恢复莫妮卡
source