贝叶斯何时(以及为什么)拒绝有效的贝叶斯方法?[关闭]


9

从我阅读的内容以及我在此处提出的其他问题的答案来看,许多所谓的常客方法在数学上都对应于特殊情况(所谓“频繁主义者”在数学上相对应,我不在乎它们是否在数学上相对应,我只是在乎它是否在数学上相对应)。贝叶斯方法(对于那些反对者,请参阅此问题底部的注释)。这个对相关问题(不是我的问题)的回答支持以下结论:

大多数Frequentist方法都具有贝叶斯等效项,在大多数情况下,其结果基本相同。

注意,在下文中,数学上相同意味着给出相同结果。如果您描述两种方法的特征,可以证明它们总是能得到与“不同”相同的结果,那是您的权利,但这是一种哲学判断,而不是数学判断或实践判断。

但是,许多自称为“贝叶斯方法”的人似乎拒绝在任何情况下都使用最大似然估计,尽管这是(数学上)贝叶斯方法的特例,因为它是“频率论方法”。显然,与贝叶斯主义者相比,贝叶斯主义者还使用有限/有限数量的分布,即使从贝叶斯观点来看,这些分布在数学上也是正确的。

问题:从贝叶斯的角度来看,贝叶斯何时,为什么拒绝在数学上正确的方法?有没有不是“哲学上的”理由吗?

在此处输入图片说明

背景/上下文:以下是我对CrossValidated上一个问题的回答和评论中的引文

贝叶斯与频繁主义者辩论的数学基础非常简单。在贝叶斯统计中,未知参数被视为随机变量。在常客统计中,它被视为固定要素...

从以上所述,我可以得出以下结论:(从数学上来说)贝叶斯方法比常客方法更通用,在某种意义上,常客模型满足所有与贝叶斯模型相同的数学假设,反之则不然。但是,相同的答案也认为我从以上得出的结论是错误的(以下是我的结论):

尽管常数是随机变量的特例,但我还是会得出结论,贝叶斯主义更为笼统。简单地将随机变量折叠成一个常数,就不会从贝叶斯函数得到频繁的结果。区别更加深刻...

根据个人喜好...我不喜欢贝叶斯统计使用可用分布的有限子集。

另一位用户,在他们的答案,说正好相反,贝叶斯方法比较一般,但奇怪的是我能找到的,为什么这可能是这种情况的最好理由是以前的答案,有人作为一个训练有素的频率论定。

数学上的结果是,频繁主义者认为概率的基本方程式有时仅适用,而贝叶斯主义者则认为它们总是适用。因此,他们认为相同的方程式是正确的,但是在通用性上却有所不同……贝叶斯严格比频率论更为通用。由于任何事实都可能存在不确定性,因此可以为任何事实分配概率。特别是,如果您正在处理的事实与现实世界的频率有关(无论是您预测的还是数据的一部分),那么贝叶斯方法就可以像对待任何其他现实世界的事实一样考虑和使用它们。因此,频频主义者觉得他们的方法适用于贝叶斯方法的任何问题也可以自然地解决。

从以上答案中,我得到的印象是,至少有两个常用的贝叶斯术语的不同定义。首先,我将其称为“数学贝叶斯”,它涵盖了所有统计方法,因为它包含了恒定RV和非恒定RV的参数。然后是“文化上的贝叶斯”方法,它拒绝了某些“数学上的贝叶斯”方法,因为这些方法是“频繁的”(即出于对参数的个人仇恨,有时将其建模为常数或频率)。对上述问题的另一个答案似乎也支持这一推测:

还要注意的是,两个营地所使用的模型之间存在很大的差异,这与已完成的事情比可以完成的事情更多相关(即,一个营地传统上使用的许多模型可以由另一个营地证明))。

因此,我想表达我的问题的另一种方式是:如果文化贝叶斯人拒绝许多数学上的贝叶斯方法,为什么他们会称自己为贝叶斯人?为什么他们拒绝这些数学上的贝叶斯方法?对于最经常使用这些特定方法的人来说,这是个人仇恨吗?

编辑:如果两个对象具有相同的属性,则无论它们如何构造,在数学上都是等效的。例如,我可以想到至少五种不同的方式来构造虚部。然而,关于虚数的研究至少没有五种不同的“思想流派”。实际上,我相信只有一个人,即研究他们属性的那个人。对于那些反对使用最大似然来获得点估计与使用最大先验和统一先验来获得点估计的人不同,因为所涉及的计算是不同的,我承认它们在哲学意义上是不同的,但是他们总是在多大程度上i给出相同的估计值,它们在数学上是等效的,因为它们具有相同的属性。哲学上的差异可能与您个人相关,但与该问题无关。

注意:此问题最初具有统一先验的MLE估计和MAP估计的不正确表征。


8
(-1)这个问题是基于错误的假设。MLE不对应于“使用统一先验”,而是使用统一先验选择后验分布的模式(因此,MAP具有统一先验)。使用MLE时,该参数不被视为随机变量,因此数学上,像或上的积分之类的构造都没有意义。θ | ÿPr(θ[0,1]y)θy
Juho Kokkala,2016年

3
我不记得有任何贝叶斯人拒绝任何非贝叶斯的名字,或者使用有限数量的分布。您可以轻松地用问题中的“贝叶斯”替换“贝叶斯”,并询问为什么贝叶斯拒绝所有非贝叶斯的事物,以及为什么他们使用有限数量的分布(基本上是各处的正态分布)-结果是与您的定义不一样。我也同意@JuhoKokkala的观点,即MLE使用统一先验,即使它们的点估计可能相对应。
蒂姆

5
MLE和MAP 具有相同的数学属性。如果您重新设置变量的参数,则MLE和MAP的转换方式会有所不同(因为MLE在每个参数化中均具有“先验优先级”,因此MAP不会)。数学对象的定义包括对象在诸如变量转换之类的运算符下的行为(例如,参见张量定义)。所以他们不是同一回事。
–lacerbi

2
我会做一个(简短的)答案,因为到目前为止还没有人提到这令人惊讶。过去,我也不得不多次解释它,因为它很容易被忽略。
–lacerbi

4
您曾经用国际象棋玩过草稿吗?有时您会发现自己处于有效的国际象棋位置,并且可能会做出合法的国际象棋举动,这也是合法的草稿举动。当然,下棋好手并不一定是下棋好手。而且,您不会因为单单是国际象棋的举动避开了良好的跳棋动作。这与用法语而不是英语描述国际象棋游戏或旋转棋盘以使黑色方块变为白色或交换控制
棋盘

Answers:


12

我想更正原始帖子中的错误假设,这是一个相对常见的错误。OP说:

根据我所阅读的内容以及我在这里提出的其他问题的答案,最大似然估计在数学上相对应(我不在乎它是否在哲学上相对应,我只在乎它是否在数学上相对应)就使用统一的先验(对于反对的人,请参阅此问题底部的注释)。

帖子底部的注释说:

如果两个对象具有相同的属性,则无论它们如何构造,在数学上都是等效的。[...]

我的反对意见是,除哲学外,最大似然估计(MLE)和最大后验(MAP)估计具有相同的数学属性。

至关重要的是,在空间的(非线性)重新参数化下,MLE和MAP变换不同。发生这种情况是因为MLE在每个参数化中都有一个“平坦的先验”,而MAP没有(先验变换为概率密度,因此有一个Jacobian项)。

数学对象的定义包括对象在诸如变量转换之类的运算符下的行为(例如,参见张量定义)。

总之,无论是从哲学上还是从数学上来说,MLE和MAP 都不是同一件事。这不是意见。


我想也许我错过了你的意思。是否可以对模型进行参数化,以使MLE的点估计与先验一致的MAP的点估计不相等?(很明显,在MAP情况下,先验必须在当前参数化方面保持统一,以便平等工作。如果在不更改先验条件的情况下重新模型化模型,则通常它将不再是统一的。)
Kodiologist '16

1
@Kodiologist:OP指出MAP和MLE是相同的“数学对象”。他们不是。不同的数学对象可以在子空间中相等(例如,在给定的参数化中),但这不能使它们相同。您可能会说“我不在乎其他参数设置”,但是,那么您就施加了强大的实际限制,这已不再是OP最初要求的“哲学”要点。
–lacerbi

6

我个人是“实用主义者”,而不是“常客主义者”或“贝叶斯主义者”,所以我不能声称自己代表任何阵营发言。

就是说,我认为您所暗示的区别可能不是MLE与MAP如此之多,而是点估计与估计后PDF之间的区别。作为在数据稀疏和不确定性很大的领域工作的科学家,我可以对不想对“最佳猜测”结果抱太大信心而感到同情,因为这可能会误导人们,导致过度自信。

一个相关的实际区别是之间的参数非参数方法。因此例如我认为卡尔曼滤波和粒子滤波都被认为是递归贝叶斯估计。但是,如果后验不是单峰的,那么卡尔曼滤波(一种参数方法)的高斯假设会给出非常误导的结果。对我来说,这些工程示例强调了差异既不是哲学上的也不是数学上的,而是根据实际结果来体现的(即,您的自动驾驶汽车会撞车吗?)。对于我熟悉的贝叶斯爱好者来说,这种“看看能做什么”的工程风格态度似乎占主导地位……不确定这是否在更广泛的范围内是正确的。


1
噪声是建模的高斯模型还是来自其他分布的模型,并不决定方法是参数化还是非参数化。
悬崖AB

1
我当时在考虑粒子滤波与卡尔曼滤波。
GeoMatt22 '16

1
@CliffAB我编辑了答案,以期解决“高斯<==>参数化”的意想不到的含义
GeoMatt22 '16

2
以我的经验(一点也不全面!),针对“技术”领域的工程师的书籍往往更像这样。诸如机器人技术和其他实时/健壮应用程序之类的东西往往在不起作用时会很快发现。从名义上讲,它可能更像是贝叶斯算法,但是塞巴斯蒂安·特伦(Sebastian Thrun)的概率机器人技术对我很有启发。他是Udacity的家伙。
GeoMatt22 '16

2
我根本没有研究过这个领域,但是我的印象是,经典的Reliability Engineering大部分都使用“频率论”方法,所以这可能也是一个务实的领域吗?
GeoMatt22 '16

6

但是,许多自称为“贝叶斯方法”的人似乎拒绝在任何情况下都使用最大似然估计,尽管这是(数学上)贝叶斯方法的特殊情况,因为它是“频率论方法”。

这样的人会拒绝MLE作为进行点估计的通用方法。在特定的情况下,他们有理由使用统一的先验且想要最大程度地采用后验估计,那么他们与MLE的计算巧合就不会受到任何困扰。

显然,与贝叶斯主义者相比,贝叶斯主义者还使用有限/有限数量的分布,即使从贝叶斯观点来看,这些分布在数学上也是正确的。

也许有时是为了使它们的计算更容易,但并非从任何原则上来讲。

我的印象是,至少经常使用两个不同的贝叶斯术语定义。首先,我将其称为“数学贝叶斯”,它涵盖了所有统计方法,因为它包含了恒定RV和非恒定RV的参数。然后是“文化上的贝叶斯”方法,它拒绝了某些“数学上的贝叶斯”方法,因为这些方法是“频繁的”(即出于对参数的个人仇恨,有时将其建模为常数或频率)。

在贝叶斯推断的不同方法之间肯定有区别,但不是这一点。如果从某种意义上说,贝叶斯主义更笼统,那就是愿意将概率的概念应用于关于参数值的认知不确定性,而不仅仅是数据生成过程的偶然不确定性,这是经常性问题本身所关注的全部。频繁推理不是贝叶斯推理的特例,也没有贝叶斯与频繁主义者辩论的数学依据吗?暗示它是。如果使用贝叶斯方法将参数视为一个常数随机变量,则无论数据是什么,都将获得相同的后验值-并说它是常数,但是您不知道它取什么值就等于什么也没说值得一说。频繁采用的方法采取了完全不同的方法,完全不涉及后验分布的计算。


“常客主义的方法截然不同,完全不涉及后验分布的计算” –这不是我的意思。我不是在谈论哲学意图,而是在谈论数学对等。有人可以说他们是“减法论者”,因为他们只加或减正数,而拒绝使用负数,即“负论者”。从哲学上讲可能是这样,但是从数学上讲,减去一个正数与添加一个负数是一回事。
Chill2Macht

我要说的是,“数学上的贝叶斯”既适用于概率概念,也不适用于关于参数值的认知不确定性。“文化贝叶斯”将仅将概率概念应用于(关于参数值的)认知不确定性。“频率论者”只会不对概率不确定的参数值应用(也不会应用)概率。我的意思是,根据人们的说法,“贝叶斯推论=文化上的贝叶斯”和“频率论者”似乎都是特例。
Chill2Macht

无论如何,我想我会在进一步评论常客统计之前尝试阅读范德瓦特的《渐近统计》,但是已经读过Casella和Berger以及零贝叶斯教科书,我不理解“常客方法采取了完全不同的策略”的说法。将概率的概念应用于“只是数据生成过程的偶然不确定性”,因为它似乎与您所写内容的其他部分相矛盾。
Chill2Macht

2
35

2
参数统计推断的模式,&Barnett(1999),比较统计推断。(4)常用方法仅考虑在给定参数值下数据的概率;贝叶斯方法根据观察到的数据获得后验条件。
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.