最大似然估计如何具有近似正态分布?


9

我一直在阅读有关MLE的信息,这是一种生成拟合分布的方法。

我碰到一条声明,说最大似然估计“具有近似正态分布”。

这是否意味着如果我对数据和我尝试适应的分布族重复应用MLE多次,我得到的模型将是正态分布的吗?分布序列如何精确地具有分布?


3
当您对数据重复应用MLE时,除非存在任何计算错误,否则每次都会得到完全相同的结果。考虑这一点的方法是考虑数据可能以不同方式出现的方式。当数据变化时,基于这些数据的ML估算也将随之变化,因此引起极大的估算变化是值得关注的。
ub

嗯,是的...我没有考虑样本量...
Matt O'Brien

Answers:


17

估计量是统计量,统计量具有抽样分布(也就是说,我们谈论的情况是,您不断绘制相同大小的样本,并查看获得的估计分布,每个样本一个)。

引用是指样本量接近无穷大时MLE的分布。

因此,让我们考虑一个明确的示例,即指数分布的参数(使用比例参数化,而不是速率参数化)。

FX;μ=1个μË-Xμ;X>0μ>0

在这种情况下 μ^=X¯。定理给我们作为样本量ñ越来越大,(适当标准化)分布X¯ (关于指数数据)将变得更加正常。

在此处输入图片说明

如果我们重复取样,每个样本的大小为1,则在左上方的图中将给出样本均值的密度。如果我们重复取样,每个样本的大小为2,则在右上方的图中给出了样本均值的密度;到n = 25时,在右下角,样本均值的分布已经开始看起来更加正常。

(在这种情况下,由于CLT,我们已经可以预测到这种情况。但是, 1个/X¯ 还必须接近正态性,因为速率参数为ML λ=1个/μ ...而且您无法从CLT中获得该信息-至少不是直接获得*-因为我们不再在谈论标准化方法,这就是CLT所要解决的问题)

现在考虑具有已知比例平均值的伽马分布的形状参数(此处使用均值和形状参数化,而不是比例和形状)。

在这种情况下,估算器不是封闭形式,并且CLT不适用于它(再次,至少不是直接*),但是似然函数的argmax是MLE。当您获取越来越大的样本时,形状参数估计的样本分布将变得更加正常。

在此处输入图片说明

这些是针对指示的样本大小(来自10000组γ形状参数的ML估计值的10000套ML估计)(前两组结果极其繁琐;它们被截断了一些,所以您可以可以在模式附近看到形状)。在这种情况下,到目前为止,模式附近的形状变化缓慢-但极端的尾巴已大大缩短。可能需要一个ñ 几百开始看起来正常。

-

*如前所述,CLT并不直接适用(显然,因为我们通常不处理手段)。但是,您可以在其中扩展某些内容时进行渐近论证θ^ 在一系列中,提出与高阶术语相关的适当论点,并调用CLT的形式以获取 θ^ 接近常态(在合适的条件下)。

还请注意,当我们查看小样本(至少比无穷小时,小)时所看到的效果-在各种情况下有规律地朝着正常态发展,正如我们所见,是由上图引起的-这表明,如果我们考虑了标准化统计的cdf,可能存在类似于Berry Esseen不等式的版本,它基于与将CLT参数与MLE结合使用的方式类似的方法,该方法将提供关于采样分布可以多快地接近正态性的界限。我还没有看到这样的东西,但是发现它已经完成并不奇怪。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.