什么时候最大可能性起作用,什么时候不起作用?


16

与计算算术平均值相比,我对最大似然法感到困惑。

什么时候以及为什么最大似然比算术平均值产生“更好”的估计?如何验证?


4
+1对于任何统计程序,这都是一个很好的问题。
whuber

3
我认为这个问题不太清楚。当然,OP尚不清楚,但这就是他们要问的原因。有关MLE和算术手段的性质的问题应以良好的答案予以解决。
gung-恢复莫妮卡

3
“更好”是什么意思?为何算术平均值可以很好地估计任意参数?
西安

4
如果不首先设置“更好”的定义,即损失函数或允许比较估计值的其他准则,就无法回答该问题。例如,MLE是高效的,这意味着(在某些规律性条件下)没有估计值的渐近方差较小。例如,如Stein效应所示,MLE可能是不可接受的,这意味着在样本分布和参数尺寸受到一定约束的情况下,对于参数的所有值,存在具有较小二次风险的估计量。
西安

2
@西安听起来像是答案的基础。
whuber

Answers:


10

虽然算术平均值听起来像是“自然”的估计量,但人们可能会问为什么它应该比MLE更受青睐!与算术平均值相关的唯一确定的属性是,在定义此期望时,它是的无偏估计量。(以柯西分布为例)。后者在似然函数的规则性条件下确实具有广泛的特性。要从Wikipedia页面借用,MLE为 ë[X]x¯E[X]

  1. 一致的
  2. 渐近正态
  3. 有效,因为它实现了最小的渐近方差
  4. 双射变换下的不变量
  5. 在参数集内,即使对于受约束的参数集

与算术平均值相比,对于规则的足够分布也满足了大多数这些特性。除4和5外,在指数族的情况下,MLE和算术平均值在估计平均参数设置中的参数时相同(但对于其他参数设置则不相同)。对于柯西分布中的样本,存在MLE。

但是,当转向有限样本最优属性(如最小极大值或可容许性)时,可能会发生MLE既不是最小极大也不是可容许的。例如,斯坦因效应表明,在样本分布和参数尺寸受到一定约束的情况下,对于参数的所有值,存在存在较小二次风险的估计量。当和时就是这种情况。p 3xNp(θ,Ip)p3


只是为了澄清问题-列出的5个属性全部在假定人口模型的范围内。
概率

@CagdasOzgenc:是的统治是渐近可忽略不计,但适用于所有 ..!然而詹姆斯斯坦极小与估计收缩的范围Ñ由于收缩常数介于02 p - 2 σ 2 / Ñ其中p是维度和σ 2一个观察组件的方差。不过,我从未听说过渐近极小性。nsn02(p2)σ2/npσ2
西安

2

让我们将“计算算术平均值”解释为使用矩量法(MoM)的估计。我相信这对原始问题是忠实的,因为该方法用样本平均值代替了理论平均值。它还解决了@Xian对任意参数(来自任意模型)的关注。

如果您仍然与我在一起,那么我认为最好的例子矩型方法在小样本中可以击败最大可能性的示例?问题文本指出:“最大似然估计器(MLE)渐近有效;我们看到的实际结果是,它们常常比矩量法(MoM)估计(当它们不同时)做得更好”,并寻求MoM估计器的特定情况与MLE相比,均方差更小。在线性回归,两参数逆高斯分布和不对称指数幂分布的情况下提供了一些示例。

“渐近效率”的概念意味着最大似然估计器可能接近最大限度地利用数据(以估计所讨论的参数),这是通常情况下矩方法无法保证的。尽管最大可能性并不总是比使用平均值更好,但这种效率属性(如果仅在极限范围内)使其成为大多数常客的首选方法。当然,逆势者可能会争辩说,随着数据集规模的增加,如果您要指向具有平均值函数的正确目标,那就顺其自然。


1

有几个著名的例子,其中最大似然(ML)无法提供最佳解决方案。请参阅Lucien Le Cam在1990年发表的论文:“最大可能性:简介” [1],该论文摘自他在大学期间的邀请演讲。马里兰州。

因为它非常简单,所以我最喜欢的示例是:

XjYjj=1,...,nXjN(μj,σ2)YjN(μj,σ2)jXjYjjσ2

我不会通过给您答案来破坏乐趣,但是(毫不奇怪)有两种方法可以使用ML解决此问题,并且它们提供了不同的解决方案。一个是平方残差的“算术平均值”(正如一个人所期望的),另一个是算术平均值的一半。你可以找到答案在这里我Github的页面上。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.