最大似然估计通常导致有偏估计(例如,其对样本方差的估计因高斯分布而有偏)。
那么,什么使它如此受欢迎?为什么要使用那么多?此外,有什么特别之处使其比其他方法更好?
此外,我注意到对于高斯,MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是-为什么在进行MLE计算之后,找不到必要的缩放比例以使估计量无偏的原因并不常见?标准做法似乎是对MLE估计的简单计算,当然,对于比例因子众所周知的高斯情况,当然除外。
最大似然估计通常导致有偏估计(例如,其对样本方差的估计因高斯分布而有偏)。
那么,什么使它如此受欢迎?为什么要使用那么多?此外,有什么特别之处使其比其他方法更好?
此外,我注意到对于高斯,MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是-为什么在进行MLE计算之后,找不到必要的缩放比例以使估计量无偏的原因并不常见?标准做法似乎是对MLE估计的简单计算,当然,对于比例因子众所周知的高斯情况,当然除外。
Answers:
无偏见本身并不一定特别重要。
除了一组非常有限的情况外,大多数有用的估计量都是有偏差的,但是可以得出。
如果两个估计量具有相同的方差,则可以很容易地提出一个偏向于无偏的估计,而这是不寻常的情况(也就是说,您可以合理地偏爱无偏的条件,尽管这些条件令人讨厌。几乎从来没有paribus)。
更典型的是,如果您想要不偏不倚,您将添加一些方差以获得它,然后问题是您为什么要这样做?
偏差是我的估算器的期望值平均会过高(负偏差表示过低)。
当我考虑一个小的样本估计量时,我并不在乎。在这种情况下,我通常对估算器的错误程度更感兴趣-我与右边之间的典型距离...诸如均方根误差或平均绝对误差之类的东西更有意义。
因此,如果您喜欢低方差和低偏差,那么要求说一个最小均方误差估计器是有意义的;这些很少是公正的。
偏差和无偏是一个有用的概念,但除非您仅比较具有相同方差的估计量,否则它并不是寻求帮助的特别有用的属性。
ML估计量倾向于低方差;它们通常不是最低MSE,但与将它们修改为无偏(如果您完全可以做到)相比,它们通常具有较低的MSE。
例如,考虑从正态分布采样时估计方差(实际上,MMSE总是具有方差分母比)。 n−1
给定模型和手头的数据,MLE会产生最可能的模型参数值 -这是一个非常诱人的概念。当可以选择在任何一组值中使观察到的数据最可能出现的值时,为什么要选择使观察到的数据不太可能出现的参数值?您是否愿意为了公正而牺牲此功能?我并不是说答案总是很明确,但是MLE的动机非常强大且直观。
而且,据我所知,MLE可能比矩量法更广泛地适用。在潜在变量的情况下,MLE看起来更自然。例如,移动平均(MA)模型或广义自回归条件异方差(GARCH)模型可以通过MLE直接估算(直接我就足以指定似然函数并将其提交给优化例程),但是而不是通过矩量法(尽管可能存在利用矩量法的间接解法)。
实际上,为了获得无偏估计,最大似然估计的缩放是许多估计问题中的标准过程。原因是,最小均方根是充分统计量的函数,因此根据Rao-Blackwell定理,如果您可以基于充分统计量找到一个无偏估计量,那么您就有一个最小方差无偏估计量。
我知道您的问题比这更笼统,但我要强调的是关键概念与可能性和基于此的估计密切相关。这些估计在有限样本中可能不会无偏,但它们是渐近的,而且它们在渐近有效,即对于无偏估计,它们达到Cramer-Rao方差边界,而MOM估计并非总是如此。
要回答有关为什么MLE如此受欢迎的问题,请考虑尽管它可能会有偏差,但在标准条件下是一致的。此外,它是渐近有效的,因此至少对于大样本而言,MLE可能会与您可能制作的任何其他估计量一样好或更好。最后,通过简单的配方即可找到MLE。采取似然函数并使之最大化。在某些情况下,该方法可能很难遵循,但对于大多数问题,并非如此。另外,一旦有了这个估计,我们就可以使用Fisher信息立即得出渐近标准误差。如果不使用Fisher的信息,它往往是真的很难得出误差范围。
这就是为什么MLE估计经常是去估计器的原因(除非您是贝叶斯)。它实施起来很简单,而且可能比您需要做更多工作来做饭的其他东西好,甚至还没有。
我要补充一点,有时(通常)我们使用MLE估计器,因为这是我们所得到的,即使在理想的世界中这不是我们想要的。(我经常认为统计就像工程学一样,在这里我们使用所获得的东西,而不是我们想要的东西。)在许多情况下,定义和求解MLE很容易,然后使用迭代方法获得价值。对于给定情况下的给定参数,可能有一个更好的估计器(对于“更好”的某个值),但是要找到它可能需要非常聪明;当您完成聪明的工作后,对于那个特定问题,您仍然只有更好的估算器。