贝叶斯主义者对贝叶斯主义者的辩论去了哪里?


59

统计领域分为常客和贝叶斯。这些天,似乎每个人都做这两者。怎么会这样?如果不同的方法适合于不同的问题,为什么统计的开国元勋们没有看到这一点?或者,是否有常胜者赢得辩论,真正的主观贝叶斯主义者转向决策理论?


13
我在不存在权威或最佳答案的前提下做出此CW。(如果您不同意,请随意说服其他任何mod!)人们可能会以其可能引起争议为由,要求关闭该问题,但是(恕我直言)它是话题且有趣。但是,任何有争议的,辩论性的或不受支持的答复(如果它们恰好出现)将被删除,而无需任何进一步的解释。
whuber

Answers:


58

我实际上稍微不同意这个前提。每个人都是贝叶斯人,如果他们确实确实有先验的概率分布。当他们不这样做时,麻烦就来了,我认为在这个话题上仍然存在相当大的分歧。

话虽如此,但我确实同意,越来越多的人不再倾向于打圣战,而只是继续在任何给定情况下做似乎适当的事情。

我想说,随着专业的发展,双方都意识到对方的做法是有好处的。贝叶斯主义者意识到,要评估一次又一次使用贝叶斯过程的效果如何(例如,这个95%的可信区间(CI)实际上包含约95%的时间的真实参数?)需要经常观察。没有这个,就无法将“ 95%”校准为任何实际数字。坚固?通过迭代拟合建立模型?频繁出现的世界中出现了一些想法,贝叶斯主义者在1980年代末左右开始采用这些想法。频繁的人意识到正则化是好的,并且如今已经非常普遍地使用它-贝叶斯先验可以很容易地解释为正则化。通过带有罚函数的三次样条进行非参数建模?您的罚款是我的事!现在我们都可以相处。

我认为,另一个主要影响是高质量软件的可用性得到了惊人的提高,可以让您快速进行分析。这分为两部分-算法(例如Gibbs采样和Metropolis-Hastings)以及软件本身(R,SAS)……如果我必须用C编写所有代码,我可能更像是纯贝叶斯主义者(我只是没有时间尝试其他方法),但实际上,只要我的模型看起来无需过多压缩即可将R放入mgcv软件包的gam中,而我一个更好的统计学家。熟悉对手的方法,并意识到在某些情况下使用它们可以节省多少努力/提供更好的质量,即使它们可能无法100%地适合您考虑问题的默认框架,


5
@Dikran:我同意,我个人会质疑对手的选择。:)
主教

2
@cardinal我不知道,结清同事可能很有趣(只要你们俩都知道比实际要好!; o)
Dikran Marsupial 2012年

3
@Dikran-感谢您的理解!我也不认为“对手”是正确的词,但我还是把它塞在那儿,部分​​是为了娱乐,一部分是因为我想不出一个更好的仍然保留某种反对感的人。
jbowman 2012年

5
@jbowman:请注意,贝叶斯统计a-la Good,Lindley或DeFinetti表示先验是主观/心理的,而不是客观/物理的。因此,我不同意:“……每个人都是贝叶斯”。这就是为什么罗宾斯在介绍常客先验的“新颖”想法时不得不使用“经验贝叶斯”一词的原因。不过,我会同意,今天,使用多级抽样方案,因此优先考虑常客,就足以成为“贝叶斯统计”。
JohnRos 2012年

2
@JohnRos-我想到的更经典的是:“如果您在结核病测试中呈阳性,那么您患结核病的概率是多少?” 情况。(我认为)很少有统计学家会反对使用适当的基线结核病率作为先验概率,并用检验可能性对其进行更新。当然,他们仍然会反对先验主观的想法,而我可以看到另一边的推理路线,尽管有背后的数据,但仍声称它是主观的,因此取值为(+1)。
jbowman 2012年

35

这是一个很难回答的问题。真正做到这两者的人数仍然非常有限。坚硬的贝叶斯主义者鄙视主流统计数据的用户,因为他们使用了,这对贝叶斯主义来说是一种荒谬的,内部不一致的统计;而主流统计学家只是不太了解贝叶斯方法,无法对它们进行评论。有鉴于此,您会在贝叶斯文献中看到对零假设意义检验的批评(涉及到几乎纯生物学或纯心理学期刊),而主流主义者对此几乎没有回应。p

在统计专业中,“谁赢得了辩论”有相互矛盾的体现。一方面,平均统计部门的组成是,在大多数地方,您会发现10-15个主流主义者与1-2个贝叶斯主义者,尽管有些部门是纯粹的贝叶斯主义者,根本没有主流主义者,除了咨询职位可能(哈佛,杜克大学,卡内基·梅隆大学,不列颠哥伦比亚省,北美蒙特利尔;我对欧洲的情况不太熟悉)。另一方面,您会发现在JASA或JRSS之类的期刊中,可能有25-30%的论文是贝叶斯论文。从某种意义上说,贝叶斯的复兴可能类似于1950年代爆发的方差分析论文:那时,人们认为几乎所有统计问题都可以归结为方差分析问题。马上,

我的感觉是,应用领域不必理会哲学上的细节,而随便使用任何更易于使用的东西。贝叶斯方法太复杂了:除了统计之外,您还需要学习计算的技巧(设置采样器,阻塞,收敛性诊断,等等),并准备捍卫先验知识(您应该使用)客观先验,或者如果该领域已经很大程度上取决于光速为3e8 m / s,或者先验的选择是否会影响您的后验是否正确,则应该使用信息先验。因此,在大多数医学,心理学或经济学应用中,您将在由实质性研究人员撰写的论文中看到主流方法,

我认为贝叶斯框架仍然不足的一个领域是模型诊断-这是从业者的重要领域。在贝叶斯世界中,要诊断模型,您需要构建更复杂的模型,然后根据贝叶斯因子或BIC选择最适合的模型。因此,如果您不喜欢线性回归的正态性假设,则可以构建带有学生错误的回归,并让数据生成自由度的估计,或者您可能会幻想并为您准备Dirichlet过程错误项,并在不同模型之间进行某些MH跳跃。主流的方法是建立一个学生残差的QQ图并去除异常值,这再次变得非常简单。

我在有关这本书的书中编辑了一个章节-参见http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary。这是一篇非常原始的论文,其中有80篇关于这一辩论的参考文献,都支持贝叶斯的观点。(我要求作者将其扩展为修订版本,其中对此有很多说明:))。来自贝叶斯(Bayesian)领先理论家之一的杜克大学的吉姆·伯格Jim Berger)作了许多演讲,并就该主题写了许多非常有思想的文章。


14

两者都保留是有充分的理由的,那就是一个好的工匠会希望为手头的任务选择最佳的工具,而贝叶斯方法和常客方法在它们的应用中都是最佳的工具。

但是,经常使用错误的工作工具,因为常客统计更适合“统计食谱”方法,这使它们比贝叶斯方法更易于在科学和工程中应用,即使贝叶斯方法提供了更直接的答案。提出的问题(通常可以从我们实际拥有的特定数据样本中推断出什么)。我不太赞成这种做法,因为“菜谱”方法会导致在没有扎实了解实际操作的情况下使用统计信息,这就是为什么p值谬误之类的问题会反复出现的原因。

但是,随着时间的推移,贝叶斯方法的软件工具将得到改进,并且正如jbowman正确地指出的那样,将更加频繁地使用它们。

我是一个贝叶斯倾向的人(对我来说,它似乎比常客方法更有意义),但是我最终在论文中使用常客统计信息,部分原因是如果我使用贝叶斯统计数据会给审阅者带来麻烦将为“非标准”。

最后(用些微的舌头说:o),引用马克斯·普朗克的话:“一个新的科学真理并不能通过说服其对手并让他们看到光明而胜利,而是因为其对手最终死了,并且新一代的人长大了。用它。”


10

我不认为频率主义者和贝叶斯主义者对相同的问题给出不同的答案。我认为他们准备回答不同的问题。因此,我认为谈论单方面获胜甚至谈论妥协都没有意义。

考虑我们可能要问的所有问题。许多只是不可能的问题(“的真正价值是什么?”)。考虑可以在各种假设下可以回答的这些问题的子集更为有用。较大的子集是您可以允许自己使用先验条件时可以回答的问题。将此集称为BF。BF有一个子集,这是一组不依赖任何先验的问题。将该第二子集称为F。F是BF的子集。定义B = BF \ B.θ

但是,我们无法选择要回答的问题。为了对世界进行有益的推断,有时我们必须回答B中的问题,这意味着使用先验。

理想情况下,给定一个估计量,您将进行彻底的分析。您可以使用先验,但如果可以证明不依赖于任何先验的估计器的优点,那也很酷。这并不意味着您可以放弃先验,也许真正有趣的问题需要先验。

每个人都同意如何回答F中的问题。担心的是真正的“有趣”问题是在F中还是在B中?

一个例子:病人走进医生那里,要么是健康的(H),要么是病的(S)。我们运行了一个测试,它将返回正数(+)或负数(-)。该测试永远不会给出假阴性-即。但有时会产生误报-P(|S)=0P(+|H)=0.05

我们有一张卡,测试机将在卡的一侧写+或-。想象一下,如果您愿意的话,我们有一个以某种方式知道真相的预言家,并且这个预言家在将卡放入信封之前在卡的另一面写上真实状态H或S。

作为经过统计学培训的医生,在打开卡片之前,我们能对信封中的卡片说些什么?可以做出以下陈述(这些陈述在上面的F中):

  • 如果S在卡的一侧,则另一侧将为+。P(+|S)=1
  • 如果为H,则另一侧的概率为+,概率为5%,-的概率为95%。P(|H)=0.95
  • (总结最后两个点)的概率,双方比赛至少 95%。P((,S)(+,H))0.95

我们不知道或是什么。没有某种先验,我们无法真正回答这一问题。但是我们可以对这两个概率之和做出陈述。P((,S))P((+,H))P(S)

这是我们所能做到的。在打开信封之前,我们可以对测试的准确性做出非常肯定的陈述。测试结果与事实相符的可能性至少为95%。

但是,当我们实际打开卡时会发生什么?假设测试结果为阳性(或阴性),那么对于他们的健康还是生病我们能说些什么?

如果测试为阳性(+),我们无话可说。也许他们很健康,也许不是。取决于当前疾病的流行程度(),大多数测试阳性的患者可能是健康的,或者多数患者是疾病。我们不能对此施加任何限制,除非首先允许我们对施加一些限制。P(S)P(S)

在这个简单的示例中,很明显,每个测试结果均为阴性的人都是健康的。没有假阴性,因此每个统计学家都会很乐意将该患者送回家。因此,除非检验结果是肯定的否则就没有必要向统计学家的建议付费

上面的三个要点是正确的,而且非常简单。但是它们也没用!在这个公认的人为模型中,真正有趣的问题是:

P(S|+)

如果没有(即先验,或至少在先验的界限),就无法回答这一问题P(S)

我不否认这可能是一个过分简化的模型,但它确实表明,如果我们要对这些患者的健康状况做出有益的陈述,就必须先对他们的健康状况有所了解。


2
您如何将语句“如果为,那么另一边将是,概率为,概率为。 ”与您先前的断言在以“示例:”开头的段落中?H+5%95%P(|S)=0.95P(|S)=0
Dilip Sarwate 2012年

1
错别字。感谢您赶上@DilipSarwate。我的意思是说,而不是P(|H)=0.95P(|S)=0.95
Aaron McDaid 2012年

2
请注意,在不知道情况下,我们可以比您要求的更为精确,并且说a检验使生病或健康的几率增加倍。但是,就决策(例如对待或不对待)而言,我们确实需要(以及损失函数)。P(S)+20P(S)
概率

1
可以公平地说,如果从先前的人口调查中估算出(相对于有根据的猜测),那么统计学的常客性就变得很重要,尤其是如果研究人员想要估计的精度时?P(S)P(S)
RobertF

6

就像您将看到的那样,有很多关于贝叶斯的常客辩论。实际上,我认为它比以往更热,而且教条主义也更少。您可能对我的博客感兴趣:http : //errorstatistics.com


2
通过Shalizi&Gelman的著作,我对您的工作很熟悉。我将明确关注该博客。但是我不知道,盖尔曼的“贝叶斯”和德芬妮蒂的“贝叶斯”是一样的吗……
JohnRos

1

许多人(除了专家专家以外)以为自己是常客,实际上是贝叶斯主义者。这使辩论有些毫无意义。我认为贝叶斯主义是赢家,但仍有许多贝叶斯主义者认为他们是常客。有些人认为他们不使用先验知识,因此他们认为自己是常客。这是危险的逻辑。这与先验(统一的先验或不一致)无关,真正的区别更加微妙。

(我不是正式进入统计部门;我的背景是数学和计算机科学。我写作是因为遇到困难,我试图与其他非统计学家甚至是一些早期职业人士讨论这个“辩论”统计人员。)

MLE实际上是贝叶斯方法。有人会说“我是常客,因为我使用MLE估算参数”。我在同行评审的文献中已经看到了这一点。这是胡说八道,是基于这样一个(未说,但暗含的)神话:常客是使用统一先验而不是非统一先验的人。

考虑从均值且方差未知的正态分布中绘制单个数字。将此差异称为。μ=0θ

XN(μ=0,σ2=θ)

现在考虑似然函数。此函数有两个参数和,并且返回给定的的概率。xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

您可以想象在热图中绘制此图,在x轴上使用,在y轴上使用,并使用颜色(或z轴)。这是带有轮廓线和颜色的图。xθ

热点图

首先,一些观察。如果固定为单个值,则可以通过热图获取相应的水平切片。该切片将为您提供值的pdf文件。显然,该切片中曲线下方的面积为1。另一方面,如果将固定为单个值,然后查看相应的垂直切片,则曲线下方的面积将无法保证。 。θθx

水平切片和垂直切片之间的区别至关重要,我发现这种类比帮助我理解了偏见的频频方法。

一个贝叶斯是有人说谁

对于此x值,哪个值给出?的“足够高”的值?θf(x,θ)

另外,贝叶斯可能包含先验,但他们仍在谈论g(θ)

对于x的这个值,哪个值给出足够高的?˚F X θ θ θf(x,θ)g(θ)

因此,贝叶斯定理x并查看该轮廓图中的相应垂直切片(或在包含先验值的变体图中)。在此切片中,曲线下的面积不必为1(如我之前所述)。贝叶斯95%可信区间(CI)是包含95%可用区域的区间。例如,如果面积为2,则贝叶斯CI下的面积必须为1.9。

另一方面,常客会忽略x并首先考虑修复,然后询问:θ

对于此,x的哪个值最常出现?θ

在此示例中,使用,这个常见问题的答案是:“对于给定的, 95%将出现在之间和。”θ X - 3 N(μ=0,σ2=θ)θx +33θ+3θ

因此,常客更加关注与固定值相对应的水平线θ

这不是构建常驻CI的唯一方法,它甚至不是一个很好的(狭窄的)CI,但请耐心等待一下。

解释“间隔”一词的最佳方法不是将其视为一维线上的间隔,而是将其视为上述二维平面上的一个区域。“间隔”是2-d平面的子集,而不是任何1-d线。如果有人提出这样的“间隔”,那么我们必须测试“间隔”在95%置信度/可信度水平上是否有效。

一位常客将通过依次考虑每个水平切片并查看曲线下方的区域来检查此“间隔”的有效性。正如我之前说过的,此曲线下方的区域将始终为1。关键要求是“间隔”内的面积至少为0.95。

贝叶斯将通过查看垂直切片来检查有效性。同样,曲线下的区域将与区间下的子区域进行比较。如果后者至少是前者的95%,则“间隔”是有效的95%贝叶斯可信区间。

既然我们知道如何测试特定间隔是否为“有效”,那么问题是我们如何在有效选项中选择最佳选项。这可能是一门妖术,但通常您希望间隔最窄。两种方法在这里趋于一致-考虑了垂直切片,目标是使每个垂直切片内的间隔尽可能窄。

在上面的示例中,我没有尝试定义可能的最窄的频繁度置信区间。请参见下面@cardinal的注释,以获得更窄间隔的示例。我的目标不是找到最佳间隔,而是要在确定有效性时强调水平和垂直切片之间的差异。满足95%频繁度置信区间的条件的区间通常将不满足95%贝叶斯可信区间的条件,反之亦然。

两种方法都需要较窄的间隔,即在考虑一个垂直切片时,我们希望使该切片中的(1-d)间隔尽可能窄。区别在于95%是如何执行的-频繁访问者只会查看建议的时间间隔,其中每个水平切片的面积的95%都在该间隔下,而贝叶斯主义者会坚持认为每个垂直切片的面积应使其95%的面积处于在间隔下。

许多非统计学家对此一无所知,他们只关注垂直方面。即使他们另有看法,这也使他们成为贝叶斯主义者。


3
(-1)我相信这篇文章在几点上都表现出一些基本的误解。即使从哪里开始,也很难知道。
主教

1
让我们解决一个似乎构成这篇文章大部分内容的问题。在给定的示例中,,因此它是基于的完全充分统计关键量。一个常客CI是满足统一地位于和所有可能实现中。由于的上述属性,它是CI的自然候选者。(续) θX2/θχ12θ(θ^,θ^u)P(θ(θ^,θ^u))=1α θXX2/θ
红衣主教2012年

1
(续)一种选择是,其中表示分布的第个分位数。几乎所有的常驻者都将使用同样有效的时间间隔,因为该时间间隔无限狭窄且易于构造。但是,后一个间隔甚至不是最短的间隔,可以通过简单的数值程序找到该间隔。总而言之,答案中论点的主要前提似乎是完全忽略了重点。[X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2]
主教

@cardinal,您好,我理解您在最后两个评论中的观点。实际上,我认为您的观点与我所说的是一致的:-)好的,有很多不同的方法来构建频繁的置信区间。您接受我描述的方法有效。您(合理地)指出,我的方法不是最狭窄的方法。我认为您的第一条评论不是很有帮助。
亚伦·麦克戴德

2
@cardinal,出于第二个想法,我接受我的回答结尾没有帮助,而且基本上是错误的,我会整理一下。从我的主要观点出发,这是分散注意力的,这是统计部门以外的许多对此有强烈见解的人不理解这两种方法之间的根本区别:两种方法都希望在曲线下具有良好的面积(至少95% ),但区别在于是通过热图获取水平(Frequentist)还是垂直(Bayesian)切片。我在这里吗,在这里值得提出这一点吗?
亚伦·麦克戴德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.