通常,矩量方法似乎只是将观测到的样本均值或方差与理论矩量相匹配以获得参数估计。我了解到,这通常与指数家庭的MLE相同。
但是,即使找到似然函数的模式可能比较棘手,也很难找到一个清晰的矩量方法定义和一个清晰的讨论来解释为什么MLE通常受到青睐。
这个问题MLE比Moment方法更有效吗?哈佛大学的唐纳德·鲁宾教授引述唐纳德·鲁宾的话说,自40年代以来,每个人都知道MLE胜过MoM,但我有兴趣了解其历史或原因。
通常,矩量方法似乎只是将观测到的样本均值或方差与理论矩量相匹配以获得参数估计。我了解到,这通常与指数家庭的MLE相同。
但是,即使找到似然函数的模式可能比较棘手,也很难找到一个清晰的矩量方法定义和一个清晰的讨论来解释为什么MLE通常受到青睐。
这个问题MLE比Moment方法更有效吗?哈佛大学的唐纳德·鲁宾教授引述唐纳德·鲁宾的话说,自40年代以来,每个人都知道MLE胜过MoM,但我有兴趣了解其历史或原因。
Answers:
在MLE中,估计器将对数似然函数最大化。
在广义上,MLE提出了更严格的假设(完整密度),因此,如果满足假设,则MLE通常不那么健壮,但效率更高(它实现了渐近方差的Kramer Rao下界)。
在某些情况下,这两者是重合的,OLS是其中一个著名的例子,其中解析解是相同的,因此估算器的行为相同。
从某种意义上讲,您可以将MLE(几乎在所有情况下)都视为MoM估计器,因为该估计器将对数似然函数的梯度的期望值设置为零。从这种意义上说,在某些情况下,密度不正确,但MLE仍然是一致的,因为仍然满足一阶条件。然后将MLE称为“准ML”。
瞬间的方法是什么?
维基百科上有一篇很好的文章。
https://zh.m.wikipedia.org/wiki/Method_of_moments_(统计信息)
这意味着您正在通过选择参数来估计总体参数,以使总体分布具有与样本中观察到的矩相同的矩。
与MLE有何不同
最大似然估计使似然函数最小化。在某些情况下,有时可以通过将总体参数设置为等于样本参数来表达此最小值。
而MoM解决方案正在解决
因此,MoM是一种估算参数的实用方法,通常会得出与MLE完全相同的结果(因为样本的矩常常与总体的矩一致,例如,样本均值分布在总体均值周围,并且在某种程度上/偏见,效果很好)。MLE具有更强的理论基础,例如可以使用Fisher矩阵(或它的估计值)来估计误差,在回归问题的情况下,它是一种更为自然的方法(我没有尝试过,但我想简单线性回归中用于求解参数的MoM工作不轻松,可能会导致不良结果。在superpronker的回答中,似乎这是通过某些功能的最小化来完成的。对于MLE,这种最小化表示更高的概率,但是我想知道它是否代表MoM这样的事情。
抱歉,我无法发表评论..
MLE进行了更严格的假设(全密度),因此,如果满足假设,则通常不那么健壮,但效率更高
实际上,在MITx的“ 统计学基础 ”上,我们得到的反面是,MoM依赖于特定的矩方程,如果我们选择了错误的密度,则说明我们做错了,而MLE则更具弹性,因为在所有情况下我们都将其最小化KD分歧