我一直在阅读有关MLE的信息,这是一种生成拟合分布的方法。
我碰到一条声明,说最大似然估计“具有近似正态分布”。
这是否意味着如果我对数据和我尝试适应的分布族重复应用MLE多次,我得到的模型将是正态分布的吗?分布序列如何精确地具有分布?
我一直在阅读有关MLE的信息,这是一种生成拟合分布的方法。
我碰到一条声明,说最大似然估计“具有近似正态分布”。
这是否意味着如果我对数据和我尝试适应的分布族重复应用MLE多次,我得到的模型将是正态分布的吗?分布序列如何精确地具有分布?
Answers:
估计量是统计量,统计量具有抽样分布(也就是说,我们谈论的情况是,您不断绘制相同大小的样本,并查看获得的估计分布,每个样本一个)。
引用是指样本量接近无穷大时MLE的分布。
因此,让我们考虑一个明确的示例,即指数分布的参数(使用比例参数化,而不是速率参数化)。
在这种情况下 。定理给我们作为样本量越来越大,(适当标准化)的分布 (关于指数数据)将变得更加正常。
如果我们重复取样,每个样本的大小为1,则在左上方的图中将给出样本均值的密度。如果我们重复取样,每个样本的大小为2,则在右上方的图中给出了样本均值的密度;到n = 25时,在右下角,样本均值的分布已经开始看起来更加正常。
(在这种情况下,由于CLT,我们已经可以预测到这种情况。但是, 还必须接近正态性,因为速率参数为ML ...而且您无法从CLT中获得该信息-至少不是直接获得*-因为我们不再在谈论标准化方法,这就是CLT所要解决的问题)
现在考虑具有已知比例平均值的伽马分布的形状参数(此处使用均值和形状参数化,而不是比例和形状)。
在这种情况下,估算器不是封闭形式,并且CLT不适用于它(再次,至少不是直接*),但是似然函数的argmax是MLE。当您获取越来越大的样本时,形状参数估计的样本分布将变得更加正常。
这些是针对指示的样本大小(来自10000组γ形状参数的ML估计值的10000套ML估计)(前两组结果极其繁琐;它们被截断了一些,所以您可以可以在模式附近看到形状)。在这种情况下,到目前为止,模式附近的形状变化缓慢-但极端的尾巴已大大缩短。可能需要一个 几百开始看起来正常。
-
*如前所述,CLT并不直接适用(显然,因为我们通常不处理手段)。但是,您可以在其中扩展某些内容时进行渐近论证 在一系列中,提出与高阶术语相关的适当论点,并调用CLT的形式以获取 接近常态(在合适的条件下)。
还请注意,当我们查看小样本(至少比无穷小时,小)时所看到的效果-在各种情况下有规律地朝着正常态发展,正如我们所见,是由上图引起的-这表明,如果我们考虑了标准化统计的cdf,可能存在类似于Berry Esseen不等式的版本,它基于与将CLT参数与MLE结合使用的方式类似的方法,该方法将提供关于采样分布可以多快地接近正态性的界限。我还没有看到这样的东西,但是发现它已经完成并不奇怪。