为什么最大似然估计被认为是一种频繁使用的技术


19

对我来说,频繁统计数据就是尝试做出对所有可能样本均有利的决策的代名词。即,常客决策规则应始终尝试使常客风险最小化,这取决于损失函数和自然的真实状态:δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

最大似然估计与频繁发生者风险如何联系?鉴于这是常客使用的最常用的点估计技术,因此必须存在某种联系。据我所知,最大似然估计比常客风险的概念还早,但是仍然必须存在某种联系,为什么还有很多人会认为这是常客风险的技术?

我发现的最接近的联系是

“对于满足弱规律性条件的参数模型,最大似然估计量约为minimax” Wassermann,2006,p。201

公认的答案或者将最大似然点估计与较强的常客风险联系起来,或者提供常客推断的替代形式定义,表明MLE是常客推断技术。


6
ML根本不注意风险!实际上,这是对ML的常客主义决策理论批评的一部分。我怀疑这个问题可能很难回答,因为它在两种不兼容的含义中隐含地使用“ Frequentist”:一种是决策理论,指的是损失函数,另一种隐式地是指不假设先验分布。
ub

@whuber ML注意风险。实际上,这是在对数丢失的情况下在不适当的先验条件下的最小化。
Cagdas Ozgenc

4
@Cagdas我认为这通常不是决策者的风险:如果对数损失是对他们重要的风险,它只会表现出ML 好像将风险最小化 顺便说一句,呼吁“不适当的统一先验”绝对是不常见的!
whuber

1
@whuber贝叶斯估计程序也使用累积的对数损失。只有在此之后,才施加决策者风险。如果我们正在谈论直接优化决策者的风险(而不是通过对数损失的垫脚石),那么就这方面而言,常客程序更为著名,即OLS。
Cagdas Ozgenc

Answers:


16

您对频率偏高和MLE的定义相对狭窄-如果我们比较慷慨一些,并进行定义

  • 频繁性:重复采样下的一致性,(渐近)最优性,无偏性和受控错误率的目标,与真实参数无关

  • MLE =点估计+置信区间(CI)

那么显然MLE满足了所有常客的理想。尤其是,MLE中的CI作为p值,控制重复采样下的错误率,并且不像许多人认为的那样给出真实参数值的95%概率区域 -因此,它们是经过频繁访问的。

并非所有这些想法都已经出现在Fisher的1922年基础论文“关于理论统计的数学基础”中,但是存在最优性和无偏见的思想,而Neyman后来加入了构造具有固定错误率的CI的思想。埃夫隆(Efron),2013年,“一个250年的论点:信念,行为和引导”,在他对贝叶斯/频率论辩论的可读性很强的历史中进行了总结:

1900年代初期,常客的潮流确实滚滚而来。罗纳德·费舍尔(Ronald Fisher)开发了最佳估计的最大似然理论,显示了估计的最佳可能行为,而杰西·内曼(Jerzy Neyman)在置信区间和检验中也是如此。Fisher和Neyman的过程几乎完全符合科学需求和20世纪科学的计算极限,从而使贝叶斯主义陷入阴影。

关于您更狭义的定义-我稍微不同意您的前提,即将频繁发生风险(FR)降至最低是决定一种方法是否遵循频繁发生哲学的主要标准。我想说一个事实,即最大限度地减少FR是一种可取的属性如下从频率论的哲学,而不是在它之前。因此,决策规则/估计器不必将FR最小化为频繁出现的人,并且将FR最小化也不一定表示方法是频繁出现的,但是一个频繁出现的人无疑会偏爱最小化FR。

如果我们具体看一下MLE:Fisher证明了MLE渐近最优(大致等效于最小化FR),这当然是推广MLE的原因之一。但是,他知道最优性并不适用于有限的样本量。不过,由于其他理想属性,例如一致性,渐近正态性,参数转换下的不变性,他对这个估计量感到满意,并且别忘了:易于计算。在1922年的论文中特别强调了不变性-从我的阅读中,我想说在参数转换下保持不变性以及摆脱先验条件的能力是他选择MLE的主要动机之一。如果您想更好地理解他的推理,我真的推荐1922年的论文,


2
我可以总结一下您的答案,因为最大似然点估计最常与CI一起使用或作为假设检验(例如,似然比检验)的一部分使用,因此,这是一种频繁使用的技术吗?如果是这样,我认为这是一个有效的答案,但是不是我希望的答案。我的目标是正式辩论,为什么可以将最大似然估计视为常点估计技术。如果这需要对惯常推论进行另一个正式定义,那也很好。
朱利安·卡尔斯

1
我一般认为MLE是一个框架,其中包括Fisher的点估计以及Neyman的CI。我想知道,仅讨论MLE是否是一个常客性的估算者,而没有使用它的方式和原因的上下文,这有多大意义。如果您需要费舍尔的理由,我真的推荐1922年的论文-我会说他所说的常客原因,尽管当时这个词并不存在。在这方面,我已经发表了我的评论。
Florian Hartig

1

基本上有两个原因:

  • 最大似然是模型参数的逐点估计。我们贝叶斯喜欢后验分布。
  • 最大似然假设没有先验分布,我们贝叶斯需要先验,它可以是信息性的,也可以是无信息的,但是它必须存在

6
+1我只想指出,您在这个答案中隐含地将“频率主义者”与“非贝叶斯主义者”等同起来。“我们贝叶斯人”的语言还暗示“贝叶斯人”是指某种个人特征或部落成员身份,几乎就像您是一种爱斯基摩人一样,而不是一套技巧和解释。
ub

4
另一方面,MLE可以很容易地导出为贝叶斯技术。它只是使用统一先验的任何统计模型的MAP估计。
朱利安·卡尔斯

3
MAP也是一个逐点估计,被“真正的贝叶斯主义者”所
抵制
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.