最大似然估计-为什么在很多情况下尽管有偏见仍使用它


25

最大似然估计通常导致有偏估计(例如,其对样本方差的估计因高斯分布而有偏)。

那么,什么使它如此受欢迎?为什么要使用那么多?此外,有什么特别之处使其比其他方法更好?

此外,我注意到对于高斯,MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是-为什么在进行MLE计算之后,找不到必要的缩放比例以使估计量无偏的原因并不常见?标准做法似乎是对MLE估计的简单计算,当然,对于比例因子众所周知的高斯情况,当然除外。


11
ML不仅有矩量法,还有很多很多替代品-顺便说一句,它也倾向于产生有偏估计量。您可能想问的是“为什么有人要使用无偏估计量?” 开始研究此问题的一个好方法是搜索偏差方差折衷
ub

7
正如胡伯指出的那样,没有偏见并没有内在的优越性。
西安

4
我认为@whuber的意思是“为什么有人要使用偏向估计量?” 要说服某人一个无偏估计量可能是一个合理的估计,它不需要太多工作。
悬崖AB

5
有关示例,请参见en.wikipedia.org/wiki/…,其中唯一的无偏估计量当然不是您要使用的估计量。
Scortchi-恢复莫妮卡

4
@Cliff我打算以更具挑衅性,可能更神秘的形式提出问题。背后隐藏着这样一种想法,即有许多方法可以评估估算器的质量,其中许多与偏差无关。从这种观点出发,最自然的问题是为什么有人会提出一个无偏估计量。从这个角度来看,请参阅glen_b的答案以获取更多信息。
ub

Answers:


18

无偏见本身并不一定特别重要。

除了一组非常有限的情况外,大多数有用的估计量都是有偏差的,但是可以得出。

如果两个估计量具有相同的方差,则可以很容易地提出一个偏向于无偏的估计,而这是不寻常的情况(也就是说,您可以合理地偏爱无偏的条件,尽管这些条件令人讨厌。几乎从来没有paribus)。

更典型的是,如果您想要不偏不倚,您将添加一些方差以获得它,然后问题是您为什么要这样做

偏差是我的估算器的期望值平均会过高(负偏差表示过低)。

当我考虑一个小的样本估计量时,我并不在乎。在这种情况下,我通常对估算器的错误程度更感兴趣-我与右边之间的典型距离...诸如均方根误差或平均绝对误差之类的东西更有意义。

因此,如果您喜欢低方差和低偏差,那么要求说一个最小均方误差估计器是有意义的;这些很少是公正的。

偏差和无偏是一个有用的概念,但除非您仅比较具有相同方差的估计量,否则它并不是寻求帮助的特别有用的属性。

ML估计量倾向于低方差;它们通常不是最低MSE,但与将它们修改为无偏(如果您完全可以做到)相比,它们通常具有较低的MSE。

例如,考虑从正态分布采样时估计方差(实际上,MMSE总是具有方差分母比)。 n1σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1。您对倒数第二段是否有直觉(或者背后有某种理论)?为什么ML估计量倾向于低方差?为什么他们的MSE经常比无偏估计量低?另外,我很惊讶地看到MMSE估计方差的表达式;不知何故我从未遇到过。为什么这么少用?与收缩有关吗?似乎它从无偏向“缩小”到零,但是我对此感到困惑,因为我习惯于仅在多元上下文中(与James-Stein相似)考虑收缩。
变形虫说恢复莫妮卡2015年

1
@amoeba MLE通常是具有足够统计量的函数,并且至少是渐近的最小方差无偏,因此您希望它们在大样本中具有较低的方差,通常在极限范围内达到CRLB;这通常反映在较小的样本中。 MMSE估计器朝向零收缩通常因为其减少方差(并因此由收缩率小引入通常将降低MSE少量偏置朝向0)。
Glen_b-恢复莫妮卡

@Glen_b,很好的答案(我一直回头再说)。您是否有作为最小MSE估计值的解释或参考?σ^MMSE2=S2n+1
理查德·哈迪

另外,这是否意味着方差的ML估计量不是最小方差估计量?否则,最小MSE估计量将是MLE和无偏估计量的某个加权平均值(具有正权重),但现在超出了该范围。如果您认为合理,我可以将其作为一个单独的问题提出。
理查德·哈迪

1
我在Wikipedia上有关MSE的文章中找到了一个完整的派生词,我想可以解释所有这一切。
理查德·哈迪

16

给定模型和手头的数据,MLE会产生最可能的模型参数 -这是一个非常诱人的概念。当可以选择在任何一组值中使观察到数据最可能出现的值时,为什么要选择使观察到的数据不太可能出现的参数值?您是否愿意为了公正而牺牲此功能?我并不是说答案总是很明确,但是MLE的动机非常强大且直观。

而且,据我所知,MLE可能比矩量法更广泛地适用。在潜在变量的情况下,MLE看起来更自然。例如,移动平均(MA)模型或广义自回归条件异方差(GARCH)模型可以通过MLE直接估算(直接我就足以指定似然函数并将其提交给优化例程),但是而不是通过矩量法(尽管可能存在利用矩量法的间接解法)。


4
+1。当然,有很多情况下您不想要最可能的估计,例如高斯混合模型(即无限可能性)。总的来说,一个很好的答案可以帮助理解MLE。
Cliff AB

3
(+1)但我认为您需要添加“最可能的”参数值的定义,因为给定的数据最有可能非常清楚。与在重复采样下的长期行为无关的估计器的其他直观上理想的属性可能包括,它不取决于您对模型进行参数设置的方式,并且不会产生真实参数值的不可能估计。
Scortchi-恢复莫妮卡

6
认为仍有“最可能”被理解为“最可能”的风险。
Scortchi-恢复莫妮卡


2
@dsaxton:统计学家已区分可能性从给定的数据的参数值的概率了近一个世纪给定的参数值的数据的-见费舍尔(1921)“在一个相关的“概率误差”,美唐1,第3-32页Pawitan(2013),在《所有可能性:使用可能性进行统计建模和推论》中,因此,尽管这些术语在通常用法中是同义词,但现在反对这一观点似乎为时已晚。
Scortchi-恢复莫妮卡

12

实际上,为了获得无偏估计,最大似然估计的缩放许多估计问题中的标准过程。原因是,最小均方根是充分统计量的函数,因此根据Rao-Blackwell定理,如果您可以基于充分统计量找到一个无偏估计量,那么您就有一个最小方差无偏估计量。

我知道您的问题比这更笼统,但我要强调的是关键概念与可能性和基于此的估计密切相关。这些估计在有限样本中可能不会无偏,但它们是渐近的,而且它们在渐近有效,即对于无偏估计,它们达到Cramer-Rao方差边界,而MOM估计并非总是如此。


11

要回答有关为什么MLE如此受欢迎的问题,请考虑尽管它可能会有偏差,但在标准条件下是一致的。此外,它是渐近有效的,因此至少对于大样本而言,MLE可能会与您可能制作的任何其他估计量一样好或更好。最后,通过简单的配方即可找到MLE。采取似然函数并使之最大化。在某些情况下,该方法可能很难遵循,但对于大多数问题,并非如此。另外,一旦有了这个估计,我们就可以使用Fisher信息立即得出渐近标准误差。如果不使用Fisher的信息,它往往是真的很难得出误差范围。

这就是为什么MLE估计经常是去估计器的原因(除非您是贝叶斯)。它实施起来很简单,而且可能比您需要做更多工作来做饭的其他东西好,甚至还没有。


1
您能否详细说明它与时刻方法的比较,因为这似乎是OP的重要组成部分?
Antoni Parellada 2015年

1
正如胡布尔指出的那样,MOM估计量也有偏差,因此MOM估计量没有优势。同样,当MOM和MLE估计量不一致时,MLE的MSE往往会降低。但是,这个答案实际上是关于为什么MLE倾向于默认设置,而不是直接与其他方法进行比较的原因。
Cliff AB

2
@AntoniParellada比较MLE和MoM有一个有趣的话题
q /

3

我要补充一点,有时(通常)我们使用MLE估计器,因为这是我们所得到的,即使在理想的世界中这不是我们想要的。(我经常认为统计就像工程学一样,在这里我们使用所获得的东西,而不是我们想要的东西。)在许多情况下,定义和求解MLE很容易,然后使用迭代方法获得价值。对于给定情况下的给定参数,可能有一个更好的估计器(对于“更好”的某个值),但是要找到它可能需要非常聪明;当您完成聪明的工作后,对于那个特定问题,您仍然只有更好的估算器。


1
出于好奇,您想要什么(在理想世界中)的例子是什么?
Glen_b-恢复莫妮卡2015年

2
@Glen_b:邓诺。无偏,最小方差,易于以封闭形式计算?当您第一次学习最小二乘回归的估计量时,生活似乎比事实简单。
eac2222
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.