如果有人说
“该方法对最大使用参数的MLE点估计,因此它是常客的;而且它不是贝叶斯。”
你同意吗?
- 背景资料:最近我读了一篇自称是常客的论文。我不同意他们的主张,充其量我感到模棱两可。本文未明确提及MLE(或MAP)。他们只进行点估计,就好像这个点估计是正确的一样继续进行。他们不对这个估计量的采样分布进行任何分析,或者类似的分析;该模型非常复杂,因此可能无法进行此类分析。他们也不在任何时候使用“后”一词。他们只是将这一点的估计值作为票面价值,然后转到他们感兴趣的主要主题-推断丢失的数据。我认为他们的方法没有任何东西可以说明他们的哲学。他们可能打算成为常客(因为他们觉得有必要在袖子上穿上自己的哲学),但是他们的实际做法却很简单/方便/懒惰/模棱两可。我现在要说的是,这项研究实际上没有任何哲学依据。相反,我认为他们的态度更加务实或方便:
“我已经观察到数据,并且希望估计一些缺失的数据。有一个参数控制着和之间的关系。我真的不在乎只是作为达到目的的一种手段。如果我有一个的估计,它将使从预测变得更加容易。我会选择一个的点估计,因为它很方便,尤其是我会选择最大化的。”ž θ žθ θ ž X θ θ P(X | θ )
在贝叶斯方法中,数据和参数的作用有点相反。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。
到目前为止,一切都很好,但是MLE(最大似然估计)在哪里适合呢?我给人的印象是,很多人认为它是频率论者(或更确切地说,它不是贝叶斯主义者)。但是我觉得它是贝叶斯方法,因为它涉及获取观察到的数据,然后找到使最大化的。MLE隐式地使用统一的先验并以数据为条件,并使最大化。公平地说,MLE看起来既是频率派的又是贝叶斯的?还是每个简单的工具都必须完全属于这两种类别之一?P (p 一个ř 一米ë 吨ë [R | d 一吨一)
MLE是一致的,但我认为一致性可以表示为贝叶斯思想。给定任意大的样本,估计值收敛于正确答案。对于参数的所有值,语句“估计值将等于真实值”成立。有趣的是,如果您以观察到的数据为条件,则该语句也成立,从而使其成为贝叶斯式。除了MLE之外,还有其他有趣的地方,但对于无偏估计器却没有。
这就是为什么我认为MLE是方法中的“最高级贝叶斯”方法,可以说是“频繁方法”。
无论如何,大多数频率属性(例如无偏)都适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下保持有效(一个实验中有无限个样本),这一事实表明一致性并不是一个有用的属性。
给定一个现实的(即有限的)样本,是否存在一个适用于MLE的Frequentist属性?如果不是这样,那么MLE并不是真正的频率偏高者。