与计算算术平均值相比,我对最大似然法感到困惑。
什么时候以及为什么最大似然比算术平均值产生“更好”的估计?如何验证?
与计算算术平均值相比,我对最大似然法感到困惑。
什么时候以及为什么最大似然比算术平均值产生“更好”的估计?如何验证?
Answers:
虽然算术平均值听起来像是“自然”的估计量,但人们可能会问为什么它应该比MLE更受青睐!与算术平均值相关的唯一确定的属性是,在定义此期望时,它是的无偏估计量。(以柯西分布为例)。后者在似然函数的规则性条件下确实具有广泛的特性。要从Wikipedia页面借用,MLE为 ë[X]
与算术平均值相比,对于规则的足够分布也满足了大多数这些特性。除4和5外,在指数族的情况下,MLE和算术平均值在估计平均参数设置中的参数时相同(但对于其他参数设置则不相同)。对于柯西分布中的样本,存在MLE。
但是,当转向有限样本最优属性(如最小极大值或可容许性)时,可能会发生MLE既不是最小极大也不是可容许的。例如,斯坦因效应表明,在样本分布和参数尺寸受到一定约束的情况下,对于参数的所有值,存在存在较小二次风险的估计量。当和时就是这种情况。p ≥ 3
让我们将“计算算术平均值”解释为使用矩量法(MoM)的估计。我相信这对原始问题是忠实的,因为该方法用样本平均值代替了理论平均值。它还解决了@Xian对任意参数(来自任意模型)的关注。
如果您仍然与我在一起,那么我认为最好的例子是矩型方法在小样本中可以击败最大可能性的示例?问题文本指出:“最大似然估计器(MLE)渐近有效;我们看到的实际结果是,它们常常比矩量法(MoM)估计(当它们不同时)做得更好”,并寻求MoM估计器的特定情况与MLE相比,均方差更小。在线性回归,两参数逆高斯分布和不对称指数幂分布的情况下提供了一些示例。
“渐近效率”的概念意味着最大似然估计器可能接近最大限度地利用数据(以估计所讨论的参数),这是通常情况下矩方法无法保证的。尽管最大可能性并不总是比使用平均值更好,但这种效率属性(如果仅在极限范围内)使其成为大多数常客的首选方法。当然,逆势者可能会争辩说,随着数据集规模的增加,如果您要指向具有平均值函数的正确目标,那就顺其自然。