如果您使用使最大化的点估计,那对您的哲学有何看法?(是常客还是贝叶斯或其他?)


12

如果有人说

“该方法最大使用参数的MLE点估计,因此它是常客的;而且它不是贝叶斯。”P(x|θ)

你同意吗?

  • 背景资料:最近我读了一篇自称是常客的论文。我不同意他们的主张,充其量我感到模棱两可。本文未明确提及MLE(或MAP)。他们只进行点估计,就好像这个点估计是正确的一样继续进行。他们对这个估计量的采样分布进行任何分析,或者类似的分析;该模型非常复杂,因此可能无法进行此类分析。他们也不在任何时候使用“后”一词。他们只是将这一点的估计值作为票面价值,然后转到他们感兴趣的主要主题-推断丢失的数据。我认为他们的方法没有任何东西可以说明他们的哲学。他们可能打算成为常客(因为他们觉得有必要在袖子上穿上自己的哲学),但是他们的实际做法却很简单/方便/懒惰/模棱两可。我现在要说的是,这项研究实际上没有任何哲学依据。相反,我认为他们的态度更加务实或方便:

    “我已经观察到数据,并且希望估计一些缺失的数据。有一个参数控制着和之间的关系。我真的不在乎只是作为达到目的的一种手段。如果我有一个的估计,它将使从预测变得更加容易。我会选择一个的点估计,因为它很方便,尤其是我会选择最大化的。”ž θ žxzθzθ θ ž X θ θ PX | θ xθθzxθθ^P(x|θ)

一个无偏估计量的想法显然是一个频率主义的概念。这是因为它不以数据为条件,并且描述了一个很好的属性(无偏),该属性可以容纳参数的所有值。

在贝叶斯方法中,数据和参数的作用有点相反。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。

到目前为止,一切都很好,但是MLE(最大似然估计)在哪里适合呢?我给人的印象是,很多人认为它是频率论者(或更确切地说,它不是贝叶斯主义者)。但是我觉得它是贝叶斯方法,因为它涉及获取观察到的数据,然后找到使最大化的。MLE隐式地使用统一的先验并以数据为条件,并使最大化。公平地说,MLE看起来既是频率派的又是贝叶斯的?还是每个简单的工具都必须完全属于这两种类别之一?P p 一个ř ë ë [R | d P(data|parameter)P(parameter|data)

MLE是一致的,但我认为一致性可以表示为贝叶斯思想。给定任意大的样本,估计值收敛于正确答案。对于参数的所有值,语句“估计值将等于真实值”成立。有趣的是,如果您以观察到的数据为条件,则该语句也成立,从而使其成为贝叶斯式。除了MLE之外,还有其他有趣的地方,但对于无偏估计器却没有。

这就是为什么我认为MLE是方法中的“最高级贝叶斯”方法,可以说是“频繁方法”。

无论如何,大多数频率属性(例如无偏)都适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下保持有效(一个实验中有无限个样本),这一事实表明一致性并不是一个有用的属性。

给定一个现实的(即有限的)样本,是否存在一个适用于MLE的Frequentist属性?如果不是这样,那么MLE并不是真正的频率偏高者。


6
从两个范例中的参数解释开始,不能将MLE视为贝叶斯。从贝叶斯角度来看,参数是随机变量,而在经典设置中是要估计的值。在许多情况下,MLE与MAP(以及可能的其他点贝叶斯估计量)一致,但其解释完全不同。

3
@Procrastinator,您应该发表评论作为答案。我不希望投票赞成或接受它,但是我只是觉得您的评论是一个答案。然后,您和我可能会在这里删除我们的评论。
亚伦·麦克戴德

1
我不明白这个问题。(我可能一个人呆着。)确切地说,“常客”是什么意思?“非贝叶斯”不会,因为它包含了多种哲学和方法。是什么使某物成为“常客财产”?您的“常客”与以决策理论原理为统计程序辩护的亚伯拉罕·沃尔德或杰克·基弗之间有没有联系?(特别是基弗在此基础上对MLE提出了相当批判性的意见。)
whuber

3
@whuber:你并不孤单。一票闭幕是我的,是一两天前作出的。我认为,这个问题缺乏明确性和重点,并且由于其话语性和争议性而难以建设性
主教

1
主持人不愿意关闭此线程,因为它已收集了很多答复(包括已被接受的!)和评论,这表明社区可能不同意您对该线程Aaron的新评估。
ub

Answers:


7

还是每个简单的工具都必须完全属于这两种类别之一?

不可以。可以从许多不同的角度研究简单的(不是那么简单的工具)。可能性函数本身是贝叶斯统计和频繁统计中的基石,并且可以从两种观点进行研究!如果需要,可以将MLE作为近似的贝叶斯解决方案进行研究,也可以采用渐近理论以惯常的方式研究其性质。


4
那是亚伦错的。经常使用确实最大似然估计并相信似然原理。Kjetil是对的,似然函数是贝叶斯推理和惯常论推理方法的关键要素。但是他们的用法有所不同。
Michael R. Chernick 2012年

3
对于亚伦的问题,我给出了很好的答案,但出于某些奇怪的原因,人们对此表示反对。他们一定不明白发生了什么。最大可能性估计无法归类为贝叶斯方法,因为它使可能性最大化并且根本不考虑先验分布!
Michael R. Chernick 2012年

4
(我只是删除了自己的评论,我试图确保只添加有用的评论。)迈克尔,毫无疑问地抱怨低票,并且您不会因为简单地说“他们一定不明白自己的意思而得到同情”。继续。”
亚伦·麦克戴德

7
@Michael,您是否曾经目睹过以“我为什么被拒绝投票”开头的富有成效的来回交易?我肯定没有 这就是为什么我(和这里的其他几个成员)都不鼓励对话的原因,无论您是否认为这是合理的。它毫无意义,通常会导致话题扩展讨论。
2012年

3
@Michael,我当然同意提供解释是出于礼貌,如果其他人尚未在评论中表达我的关注,我会尝试这样做。但是,如果您收到无声的反对意见,我怀疑提出这个话题会不会引发富有成效的对话。
2012年

10

在执行“最大似然估计”时,您需要考虑估计值估计器的采样属性,以便确定以置信区间表示的估计不确定性。我认为这对您的问题很重要,因为置信区间通常取决于未观察到的采样点,在某些情况下,这似乎是一种基本的贝叶斯性质。

PS这与更普遍的事实有关,即最大似然估计(点+间隔)不能满足似然原理,而完整(“ 野蛮风格”)贝叶斯分析却可以。


+1。截断法线将导致不同的后验的想法是有趣且令人惊讶的!我确实评论说我对此表示怀疑,但是我删除了该评论。我需要再考虑一下。通常,我发现似然原理是“显然是正确的”,因此我应该多考虑一下。
亚伦·麦克戴德

好点禅。我想作为一个点估计,最大似然估计是遵循似然原理的,但置信区间的常识性概念却并非如此。
Michael R. Chernick 2012年

@Zen,我不相信后继者是一样的。你有参考吗?我创建了一个Google文档,其论据是当我们用截断的法线替换法线时,后验将改变。提前致谢。
亚伦·麦克戴德

6

似然函数是涉及数据和未知参数的函数。给定参数值,可以将其视为观测数据的概率密度。参数是固定的。因此,就其本身而言,可能性是一种常客主义的观念。最大化似然性只是找到使似然性取其最大值的参数的特定值。因此,最大似然估计是一种仅基于数据和假定生成模型的模型形式的频繁方法。贝叶斯估计仅在先验分布放在一个或多个参数上时才进入,贝叶斯公式用于通过将先验与似然相结合来获得一个或多个参数的后验分布。


此处发布的所有评论均已移至专用聊天室。如果有人很难进入此会议室,并且仅在这种情况下,请举报以引起主持人注意。不再接受任何评论。
chl 2012年

6

假设“贝叶斯”是指主观贝叶斯(又称认知贝叶斯,De-Finetti贝叶斯),而不是当前经验贝叶斯的意思-它并非无关紧要。一方面,您仅根据数据进行推断。目前没有主观信念。这似乎足够频繁。。。但甚至在费舍尔本人(严格的非(主观)贝叶斯理论)上也表达了批评,即在选择数据的采样分布时,主观性已经蔓延了。数据生成过程的信念。

总之,我相信MLE通常被认为是一个频繁出现的概念,尽管这仅取决于如何定义“经常出现的”和“贝叶斯”。


+1:这就是我在上面的评论中要尝试的内容。
尼尔G

1

(回答自己的问题)

一个估计器是一个函数,它的一些数据,并产生一个数字(或数字的范围)。估计量本身并不是真正的“贝叶斯”或“频率论者”-您可以将其视为一个黑匣子,其中有数字输入而数字出来。您可以向常客和贝叶斯展示相同的估计量,他们对估计量有不同的看法。

(我对常客主义者和贝叶斯主义者之间的简单区分不满意-还有其他问题需要考虑。但是为了简单起见,我们假装这只是两个定义明确的哲学阵营。)

您不能通过他们选择哪种估计器来判断研究人员是否是贝叶斯的常客。重要的是要听取他们对估算器进行的分析以及选择估算器的原因。

假设您创建了一个软件,该软件可以找到值,从而使最大化。您将此软件提供给常客,并请他们进行介绍。他们可能会通过分析采样分布并测试估计量是否有偏差来进行。也许他们会检查它是否一致。他们将基于诸如此类的属性批准或不批准估算器。这些是常客感兴趣的属性的类型。PX | θ θP(x|θ)

当将相同的软件提供给贝叶斯软件时,贝叶斯软件可能会对大多数常客的分析感到满意。是的,在其他所有条件都相同的情况下,偏见并不好,一致性也很好。但是贝叶斯人将对其他事物更感兴趣。贝叶斯算法将要查看估计量是否采用后验分布的某些函数的形式。如果是这样,使用了什么先验?如果估计量是基于后验的,则贝叶斯算法会怀疑先验是否是好的。如果他们对先验感到满意,并且如果估计器报告的是后验的模态(而不是例如后验的均值),那么他们很乐意将此解释应用于估​​计:估计哪一个是最有可能正确的。”

我经常听到有人说,即使涉及的人数相同,常客和贝叶斯主义者对事情的理解也有所不同。这可能会有些混乱,我认为这不是真的。他们的解释不会互相冲突。他们只是发表有关系统不同方面的陈述。让我们暂时将点估计值放在一边,而改为考虑间隔。特别是,存在频繁性置信区间和贝叶斯可信区间。他们通常会给出不同的答案。但是在某些模型中,在具有某些先验的情况下,两种类型的区间将给出相同的数值答案。

当间隔相同时,我们如何对它们进行不同的解释?一个常客会说一个间隔估计器:

看到数据或相应的间隔之前,我可以说至少有95%的可能性将true参数包含在间隔中。

而贝叶斯会说区间估计器:

看到数据或相应的时间间隔后,我可以说至少有95%的概率将true参数包含在时间间隔内。

除了单词“之前”和“之后”以外,这两个语句是相同的。贝叶斯将理解并同意前一个声明,并且将承认其真实性独立于任何先前的事实,因此使其“更坚强”。但是以贝叶斯本人的身份发言,我会担心前一种说法可能不太有用。常驻者不喜欢后一种说法,但我对它的理解不够充分,无法对常驻者的反对进行公正的描述。

看到数据后,常客是否仍然对区间内包含真实值感到乐观?也许不吧。这有点违反直觉,但对于根据采样分布真正理解置信区间和其他概念很重要。您可能会假设常客会说“鉴于数据,我仍然认为真实值存在此间隔的可能性为95%”。一个常客不仅会质疑这种说法是否正确,还会质疑以这种方式归因概率是否有意义。如果您对此有更多疑问,请不要问我,这个问题对我来说太过分了!

贝叶斯主义者很乐意做出这样的陈述:“以我刚刚看到的数据为条件,真实值在此范围内的概率为95%。”

我必须承认,我对最后一点有些困惑。我了解并同意常驻人员查看数据之前的发言。看到数据,我理解并同意贝叶斯理论。但是,我不确定在看到数据常客会说些什么;他们对世界的看法会改变吗?我无法在这里了解常客主义哲学。


1
尽管我发现很多这种清晰和提供思想的方法,但似乎完全忽略了一些根本性的东西,这完全是对概率的不同解释。另外,最后两段不适用于我所见过的任何分析或解释。确实,我在您的“常客主义者”(听起来像是一位古代哲学家)中没有任何实践统计学家。至少在亚里士多德之后,谁曾说过在获得数据之前完成了数据分析?这是一个试图推进贝叶斯方法的稻草人吗?
ub

1
@whuber,如果这是一个稻草人,那不是故意的。它总是很难做出任何企图报告对别人的意见,而不会意外,包括它的判决。我并没有声称对许多细微差别的立场有广泛的了解。我将尝试重新考虑我的最后一段。另外,您说我没有提到“完全不同的概率解释”。我宁愿什么也不想说不正确的话。不可能说全部。我可以试着给你真相,但只能给真相,但我不能给你所有的真相:-)
亚伦·麦克戴德

(+1)您是对的,这里有很长的辩论,而且一个帖子无法涵盖所有​​观点。我对这个答复的仔细和周到的阐述表示赞同(但不是因为我同意所有这些!)。
ub

我对最后几段进行了编辑,以使其更加公平。从“看到数据后...”开始。我不是专家,所以我正努力地使我模糊不清。感谢您的反馈。
亚伦·麦克戴德

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.