XKCD的Frequentists vs.Bayesians漫画有什么问题?


113

xkcd漫画编号1132

这张xkcd漫画(Frequentists vs. Bayesians)取笑了一个得出明显错误结果的常客统计学家。

然而,在我看来,他的推理实际上是正确的,因为它遵循标准的频繁论者方法。

所以我的问题是“他是否正确地采用了常客主义方法?”

  • 如果否:在这种情况下正确的常客推断是什么?如何将有关太阳稳定性的“先验知识”整合到频率论方法中?
  • 如果是:wtf?;-)

17
关于盖尔曼
Glen

5
从常客和贝叶斯的角度来看,我认为很多错误。我最大的批评是:首先,P值最终是启发式的,并且是包括统计问题,数据和实验在内的许多事物的属性。在此,这三个问题都严重歪曲了这个特定的问题。其次,“贝叶斯”使用决策理论方法,而不必是贝叶斯。不过很有趣。
Momo

5
要将其排除在统计领域之外。...太阳的质量不足以产生新星。QED,贝叶斯是正确的。(相反,太阳会变成红色巨人
Ben Brocka 2012年

3
@Glen等人,特别注意Randall Munroe对Gelman的回复:andrewgelman.com/2012/11/16808/#comment-109366
jthetzel 2012年

2
这里的常客统计学家之所以愚蠢,不是因为他是常客,而是因为他显然知道机器的工作原理,因此知道这是不适当的度量,并且无论如何都可以进行推断。
rvl

Answers:


44

主要问题是,第一个实验(太阳升起的新星)是不可重复的,这使其非常不适用于将概率解释为对事件发生频率的估计的频繁主义者方法,这样我们就可以多次重复该实验。相反,贝叶斯概率被解释为我们的信念程度,它给出了所有可用的先验知识,使其适合于有关一次事件的常识性推理。掷骰子实验是可重复的,但我发现任何常客都不大可能故意忽略第一个实验的影响,并对获得的结果的意义如此自信。

尽管似乎作者嘲笑常客主义对可重复实验的依赖以及对先验者的不信任,但使实验设置不适用于常客主义方法论,但我要说,这部漫画的真正主题不是常客主义方法论,而是盲目的追随一般不合适的方法论。是否有趣是取决于您(对我而言),但我认为,比弄清两种方法之间的差异,它更容易引起误解。


1
(+1)关于这种在频繁性中可重复性的强大且至关重要的假设的一个很好的参考是《科学中的统计推断》(2000年),第1章。(尽管问题太多,很难分辨哪个是主要问题)

36
没有这么快与重复性的说法。首先,这是可重复的实验是这台机器的太阳去新星的真理的查询被推断的固定,但不明物体。当然,可以重复进行查询实验,如果再进行几次查询,则频繁采用的策略似乎很合理。
2012年

6
其次,无论如何,对可重复性业务都不应该太严格,以免常旅客在非实验情况下根本无法推断任何东西。暂时假设“太阳变新星”是候选事件。我不是物理学家,但是我被告知“太阳升起新星”事件发生的频率非常高(在这里不多发生),所以在我看来,这就像重复一样。无论如何,像大卫·考克斯(David Cox)这样的人(在“统计基金会”(Foundation of Statistics)中)兴高采烈地说:“考虑的重复几乎总是假想的。这本身似乎没有缺点”。
共轭

7
我们可以将太阳视为来自平行宇宙中一群太阳的随机样本,原则上,只要拥有量子镜,我们就可以重复该实验!; o)
Dikran Marsupial 2012年

2
为什么对太阳爆炸的检查不能重复进行?我每天早上检查,并且还没有炸毁。
GKFX

27

据我所知,到目前为止,常客位是合理的:

假设是太阳尚未爆炸的假设,而H 1是太阳尚未爆炸的假设。因此,p值是在H 0下观察结果(机器说“是”)的概率。假设机器正确地检测到中微子的存在,那么如果机器在H 0下说“是”,那是因为机器由于向后滚动两个六分之一而对我们说谎。因此,p值为1/36,因此按照正常的准菲舍尔科学实践,常客将以95%的显着性水平拒绝原假设。H0H1H0H0

但是,否定原假设并不意味着您有权接受其他假设,因此分析者无法得出常人论断的结论。经常性假设检验体现了证伪主义(某种程度)的思想,您不能证明任何事情都是真实的,只能反驳。因此,如果要断言,则假定H 0为真,并且仅当可以证明H 0与数据不一致时才继续进行。但是,这并不意味着H 1是正确的,只是它可以在测试中幸存下来,并至少在下一次测试中作为可行的假设继续存在。H1H0H0H1

贝叶斯也只是常识,要注意下注不会有任何损失。我敢肯定,如果考虑到错误肯定和错误否定的成本(Neyman-Peason?),那么经常采用的方法会得出与长期收益最佳策略相同的结论。

总结一下:这里的常客和贝叶斯人都太草率了:常客在不考虑适当程度的重要性,假阳性/假阴性成本或问题的本质(即不使用常识)的情况下盲目遵循食谱。贝叶斯草率的没有明确说明其先验条件,但是再一次使用常识,他所使用的先验条件显然是正确的(机器躺着比太阳实际上爆炸的可能性大得多),草率也许是可以原谅的。


4
拒绝零假设只是意味着如果H0为真,则观察不太可能。您不应该在此基础上“接受” H1,因为它基本上是在说H1必须为真,因为如果H0为真,则观察不太可能。但是,在H1(无效礼仪忽略)下观察也不太可能,并且H1比先验H0(无效礼仪也忽略)的可能性小。接受假设是将惯常测验解释为贝叶斯测验的一种倾向,这通常会在基本情况较少的情况下造成误解。
迪克兰有袋博物馆,2013年

4
刚发现您的评论。我有一个与@glassy相同的问题。我想反对您的评论,如果您的假设涵盖事件的整个领域,这里是{“太阳升了新星”,“太阳升了新星”},那么我很难理解您的观点如何拒绝“太阳变新星”不会自动导致“太阳变新星”。声明为假意味着该否定必须为真。如果您可以提供一些可靠的参考文字,并且在可能的情况下清楚地说明了这一点,那就太好了。我想了解更多有关它的信息。
意思就是意思

3
拒绝原假设并不自动意味着原假设可能是错误的,只是继续其他假设是合理的。这是(部分)因为常识性假设检验未考虑假设的先验概率。从根本上说,不能使用频繁主义者的方法为任何特定假设的真相分配概率,因此就目前而言,“我们可以拒绝原假设”和“原假设可能是错误的”之间的联系是完全主观的。我可以看到。
迪克兰有袋博物馆,

2
这是我的观点,关于是否接受H1的决定是主观的,而不是测试结果“拒绝H0 通常会导致接受H1” 的必要结果。问题是您需要做出决策[P(H0),P(H1),P(Z | H1)]的信息不会出现在测试中。从本质上讲,某些信息部分包含在设置阈值中,但这通常是不完整的,并且常常不加说明和不合理。先验者仍然在频频测试中,同样主观,但隐含-两全其美!; o)
Dikran Marsupial 2014年

3
@Dikran,我想我们彼此了解得很深,应该停止滥用评论部分,但最后一句话:如果我根据我的主观选择α主观选择拒绝[amoeba-reject] H0,则我主观地选择接受H1 。P(H1)的主观专家评估。说“我不会因为拒绝变形虫H0而被迫接受H1”没有任何语言意义。但我确实同意“我不会因为仅仅可以拒绝5%的H0而被迫接受H1”。我的主要观点:能够以5%的水平拒绝H0 α 拒绝
变形虫

25

为什么这个结果看起来“错误”?贝叶斯会说结果似乎是违反直觉的,因为我们对太阳何时会爆炸有“先验”的信念,而这台机器提供的证据不足以洗去这些信念(主要是由于不确定性,因为硬币翻转)。但是,常客能够进行这样的评估,他只是必须在数据的背景下进行评估,而不是相信。

悖论的真正根源在于,进行的统计数据统计并未考虑所有可用数据。漫画中的分析没有问题,但是结果似乎很奇怪,因为我们知道太阳很可能不会长时间爆炸。但是我们怎么知道呢?因为我们进行了测量,观察和模拟,可以限制太阳何时爆炸。因此,我们的全部知识应考虑这些度量和数据点。

在贝叶斯分析中,这是通过使用这些度量构建先验来完成的(尽管将度量转换为先验的过程的定义不明确:在某些时候必须有一个初始先验,否则“将全部弄乱了”)下降”)。因此,当贝叶斯人使用他的先验知识时,他实际上是在考虑很多其他信息,这些信息不是常客的p值分析所不具备的。

因此,为了保持平等,对问题进行全面的频度分析应包括与用于构造贝叶斯先验的太阳爆炸相同的其他数据。但是,代替使用先验,常客只会简单地扩大他用来合并其他度量的可能性,并且将使用该完全可能性来计算其p值。

(机器说是|太阳爆炸了)* L(关于太阳的所有其他数据|太阳爆炸了)大号=大号大号

全面的频繁主义者分析很可能表明,可能性的第二部分将受到更大的约束,并且将成为p值计算的主要贡献(因为我们拥有大量有关太阳的信息以及该信息的错误很小(希望如此))。

实际上,人们不必走出去收集过去500年中获得的所有数据点来进行频繁计算,就可以将它们近似为一种简单的似然项,该项编码关于太阳是否爆炸的不确定性。然后,这将与贝叶斯先验相似,但是在哲学上稍有不同,因为它是可能的,这意味着它编码了一些先前的度量(而不是先验,后者编码了先验的信念)。与贝叶斯先验相反,该新项将成为可能性的一部分,并将用于建立置信区间(或p值或其他值),而贝叶斯先验则被积分形成可信区间或后验。


1
这应该是公认的或投票最多的答案。
Amelio Vazquez-Reina 2014年

11

我看到的最大问题是没有派生测试统计信息。 -值(与所有的批评贝叶斯统计人员发动针对它)为一个值检验统计量的Ť被定义为P [R ö b [ Ť | ħ 0 ](假定零被拒绝的更大值Ť,如将与的情况下χ 2ptTProb[Tt|H0]Tχ2统计数据)。如果您需要做出更重要的决定,则可以增加临界值,并将拒绝区域进一步推高。实际上,这就是Bonferroni等多项测试更正所做的,它指示您对值使用低得多的阈值。相反,频率论统计学家这里套牢尺寸上的网格测试0 1 / 36 2 / 36 ...p0,1/36,2/36,

当然,这种“频率主义”方法是不科学的,因为结果将难以再现。太阳一旦变成超新星,它将保持超新星状态,因此探测器应不断重复说“是”。但是,重复运行此机器不太可能再次产生“是”结果。这在想要表现出自己的严谨并试图重现其实验结果的领域中得到认可……据我所知,发生的可能性在5%(出版原始论文是纯粹的I类错误)和在某些医疗领域中大约占30-40%。荟萃分析人员可以为您提供更好的数据,这只是统计葡萄藤上不时传来的嗡嗡声。

从“适当的”常客角度来看,另一个问题是,滚动模具是最不强大的测试,功效=显着性水平(如果不降低,则5%显着性水平只有2.7%的显着能力)。Neyman-Pearson的t检验理论对证明这是UMPT感到很痛苦,并且许多高额眉头统计理论(我几乎不了解,我必须承认)致力于推导幂曲线并在给定给定值时找到条件测试是给定班级中最强大的测试。(来源:@Dikran Marsupial在评论之一中提到了权力问题。)

我不知道这是否会困扰您,但贝叶斯统计学家在这里显示为不懂数学却有赌博问题的人。合适的贝叶斯统计学家会假设先验,讨论其客观程度,得出后验,并证明他们从数据中学到了多少。这些都没有完成,因此贝叶斯过程被简化得和常客主义一样简单。

这种情况证明了对癌症问题的经典筛查(我相信生物统计学家可以比我更好地描述它)。当使用不完善的仪器筛查罕见疾病时,大多数阳性结果都是假阳性。精明的统计学家知道这一点,并且更了解通过廉价,肮脏的筛查器进行更昂贵,更准确的活检。


2
如果我正确理解了您的第一段,则表示阈值(漫画中的0.05)设置得太高。如果漫画有五个骰子而不是两个,那么您会接受这个门槛足够低吗?无论如何,您如何确定阈值?
ShreevatsaR 2012年

9
我认为贝叶斯统计学家只是考虑到太阳爆炸的机会比机器躺下的机会要小得多(因此,不一定是无知的赌徒)。
2012年

8
更重要的是:如果太阳升起,下注的赢家将无法兑现他的50美元...
kjetil b halvorsen 2012年

6
我认为这里的要点是,常客统计学家遵循的是食谱,而不考虑分析的真正目的。所谓的“贝叶斯”实际上并不是贝叶斯,只是一个使用常识的人。科学期刊上有很多盲目食谱的例子,这就是为什么动画片很有趣的原因。
迪克兰有袋博物馆,2012年

3
缺乏测试统计信息并不是我想的问题。测试统计信息只是数据的一部分功能。因此,至少在原则上,标识函数(即此处的基准点本身)似乎起作用。
2012年

6

这部漫画没有错,原因与统计无关。这是经济学。如果常客是正确的,那么地球将在48小时内变得无人居住。$ 50 的值实际上为空。贝叶斯意识到这一点,就可以打赌,知道他的收益在正常情况下是50 美元,而在阳光暴晒的情况下几乎没有。


这确实与“与统计有关”,因为贝叶斯统计将其明确建模为“最小化损失函数”;)
Fabio Beltramini

5

现在CERN决定中微子的速度不比光快-电磁辐射激波锋线会在注意到中微子变化之前撞击地球。至少(在短期内)这将产生惊人的极光效果。因此,黑暗的事实并不能防止天空被照亮。人造卫星被汽化并自燃时,月球将发出明亮的光芒(参见拉里·尼文(Larry Niven)的“不变的月亮”)和壮观的闪光。

总而言之-也许测试错了?(虽然可能有事前通知-没有足够的时间来实际确定后验。


1
然后,所有更多的理由都拒绝太阳已经爆炸的假设。:-)
ShreevatsaR 2012年

因此,当作者说“需要确认性研究”时,这就是本文结尾的含义?
DWin

实际上,在标题中随便回顾一下,就可以得出清晰的推断。机器检测太阳是否已经变新星。检测中没有错误的机会。中微子位无关紧要。在这种情况下,统计信息将使机器以“错误”陈述(是)的1/36机率回答“否”,“否”,“否” ...,直到一次性事件终止统计信息为止进程发生-这也将有1/36的机会被错误报告(否),如果在8个奇数分钟的间隔内查询机器,它在地球上会变得明显。
SimonN

4

我同意@GeorgeLewis的观点,即得出频率论方法错误的结论可能为时过早-让我们将中微子探测器再运行几次以收集更多数据。无需弄乱先验。


2

在所有详细答案中可能会遗漏的一个更简单的观点是,描绘了常客是根据单个样本得出结论的。实际上,您永远不会这样做。

得出有效的结论需要统计上有意义的样本量(换句话说,科学需要是可重复的)。因此,在实践中,常客会多次运行机器,然后得出有关结果数据的结论。

据推测,这将需要多次向机器询问相同的问题。并且,假设机器每36次故障仅一次,就会出现清晰的图案。从这种模式(而不是一次阅读),常客会得出一个关于太阳是否爆炸的结论(相当准确,我会说)。


4
您所说的“具有统计意义的样本量”是什么意思?
Momo 2012年

@Momo-当然可以。观察不可能的结果,然后得出结论,即不可能发生的结论而没有首先重复观察以确保它不是a幸,这是无效的。如果您想要一个代表统计学意义上的样本数量的精确数字,或者想要一个确定精确数字的算法,那么统计学家可能会提供一个数字;但我不是统计学家。
aroth 2012年

3
我认为样本量为1并不存在特别的问题,问题在于检验没有统计功效(即,检验永远不会拒绝无效假设的虚假假设)。但是,这揭示了文章中虚假的“无效仪式”的问题,它忽略了统计功效(以及H1实际是什么,或与该问题相关的先验信息)的问题。
迪克兰有袋博物馆,

1
@Dikran这是最好的答案之一!漫画中“常客”的问题在于,在没有首先对测试属性进行必要评估的情况下遵循了特定的统计习惯。(甚至可以考虑此决策的相关损失函数来扩展您的分析。)因此,该动画片巧妙地使所有使用统计程序而又不了解统计程序或检查其假设的人都感到困惑。
ub

2

您的问题的答案是:“他是否正确地采用了频率论方法?” 是的,他没有精确地采用常客主义方法。此问题的p值不完全是1/36。

我们首先必须注意,涉及的假设是

H0:太阳还没有爆炸,

H1:太阳爆炸了。

然后,

p值= P(“机器返回是” |太阳尚未爆炸)。

为了计算这种可能性,我们必须注意,“机器返回是”等同于“中微子探测器测量到太阳爆炸并告诉真实结果,或者中微子探测器没有测量到太阳爆炸并向我们说谎”。

假设掷骰子与中微子探测器的测量值无关,我们可以通过定义以下内容来计算p值:

p0 = P(“中微子探测器测量太阳爆炸” |太阳尚未爆炸),

然后,p值为

p值= p0 x 35/36 +(1-p0)x 1/36 =(1/36)x(1+ 34 x p0)。

对于此问题,p值是1/36到35/36之间的数字。当且仅当p0 = 0时,p值等于1/36。也就是说,此卡通中的一个隐藏假设是,如果太阳未爆炸,探测器将永远不会测量太阳爆炸。

此外,关于外星爆炸发生的外部证据的可能性,应该插入更多的信息。

祝一切顺利。


1

我认为常客的方法没有任何问题。如果否定原假设被拒绝,则p值是类型1错误的概率。类型1错误拒绝了真实的零假设。在这种情况下,我们的p值为0.028。这意味着在曾经进行过该p值的所有假设检验中,每100个样本中大约有3个将拒绝真实的零假设。通过构造,这将是其中一种情况。经常有人接受,有时他们会拒绝真实的零假设或保留错误的零假设(类型2错误),但他们从未主张过。而且,从长远来看,它们可以精确地量化错误推断的频率。

也许,比较不那么混乱的看待结果的方法是交换假设的作用。由于两个假设很简单,所以这很容易做到。如果零是太阳变新星,则p值为35/36 = 0.972。这意味着没有证据反对太阳变新的假设,因此我们不能根据这一结果拒绝它。这似乎更合理。如果你在想。为什么有人会假设太阳变新星了?我问你。如果突然想到太阳爆炸,为什么有人会进行这样的实验呢?

我认为这只是表明必须事先评估实验的有效性。例如,该实验将完全无用,因为它仅通过仰望天空即可测试我们已经知道的东西(我确定产生的p值实际上为零)。设计好的实验是产生好的科学的要求。如果您的实验设计不当,那么无论您使用哪种统计推断工具,您的结果都不太可能有用。


当然,但是贝叶斯仍然可以根据给定的数据/实验结果推断出合理的结论。有时,您无法重复实验或按照自己的方式设计实验。
阿梅里奥·巴斯克斯·雷纳

这是一个公平的观点,贝叶斯推理可以轻松地合并以前的经验,这使得非凡的结果很难具有统计权重(它可以保护我们免受统计错误的影响)。但是,这在贝叶斯框架中也是无用的实验。先验强烈地支持一个结论,以至于本实验中没有任何结果可以改变它。如果事前是如此强大。为什么要进行没有修改机会的实验?当考虑弱先验(可能会被数据更改)时,我认为贝叶斯方法和惯常方法通常会产生“可比”的结果。
Jose Garmilla

0

如何将有关太阳稳定性的“先验知识”整合到频率论方法中?

非常有趣的话题。

这只是一些想法,而不是完美的分析...

将贝叶斯方法与非信息先验一起使用通常可以提供与常客相比可比的统计推断。

为什么贝叶斯先验者坚信太阳没有爆炸?因为他每个人都知道太阳从开始就从未爆炸过。

我们可以在一些具有共轭先验的简单统计模型上看到,使用先验分布等效于使用从非信息性先验和初步实验得出的后验分布。

上面的句子表明,常客应该通过将初步实验的结果纳入其模型来得出贝叶斯结论。这就是贝叶斯的实际作用:他的先验来自对初步实验的了解!

ñX一世一世X一世θX一世X一世=1个一世=1个ñ

ñ+1个X一世ÿ={}Xñ+1个=0θθX1个Xñÿ1个ñÿ={}θθ

H0={太阳还没有爆炸}


“……他每个人都知道,太阳从开始就从未爆炸过”这一段落让我想到了一个关于最近的美国假期的故事,该假期中消耗了数百万只火鸡(Meleagris gallopavo)。随着时间的流逝,每天任何聪明的火鸡都会“知道每个人”,直到11月中旬这一对她来说是决定性的一天(这对她来说是完全出乎意料的)!同样,如果我们所要依靠的只是人类观察太阳的相对较短的历史,那么我们对太阳稳定性的信心就应该低。
Whuber

@whuber我希望私下发送此消息给您。您的评论和讨论主题之间有联系吗?我不知道是不是我让我产生了想法,但是我有好几次感觉到您对我的答案发表评论,主要是对我的答案说些什么。OP所进行的练习是对动画片的解释,我觉得您批评我的回答就好像我在谈论一个真正的问题。最近,我不感激,我仍然不明白为什么你在我的答案后面引起了一个可能的“意图”。
斯特凡·洛朗

没有批评,暗示或意图:有时评论实际上只是……评论。它试图强调(以一种幽默的方式)提示但未回答的重要问题。很抱歉,您认为这是个人原因还是攻击。顺便说一句,这一个真正的问题:它问如何将“先验知识” ...整合到常客主义方法中?这个问题引起休ume对归纳推理的批评,涉及到科学哲学以及统计学的基础问题。值得仔细考虑一下!
Whuber

也可能需要指出,您声誉的很大一部分归功于我对您的回答的投票-我作为物质证据表明,我没有针对您的系统行为。
Whuber

2
不,我了解您的评论。您评论的法文Google翻译已经很奇怪了,但是结合我的英语技能和奇怪的Google翻译,我就能获得正确的翻译。下个月,我可能会更加放松。
斯特凡纳·洛朗

0

当然,这是一个频繁的0.05级检验-在无效假设下,无效假设的拒绝时间少于5%,甚至在替代方法下的功效也很大。

另一方面,先验信息告诉我们,太阳在特定时间点出现超新星的可能性很小,但偶然撒谎的可能性更大。

底线:漫画并没有什么大不了,这表明检验不合理的假设会导致较高的错误发现率。此外,您可能希望在评估提供的投注时考虑先验信息-这就是为什么贝叶斯后验与决策分析相结合如此受欢迎的原因。


-2

在我看来,更正确的频率分析如下:H0:太阳爆炸了,机器正在说真话。H1:太阳没有爆炸,机器在撒谎。

此处的p值为= P(太阳分解)。p(机器说的是实话)= 0.97。P(太阳爆炸了)

在不知道第二种可能性的本质的情况下,统计学家无法得出任何结论。

尽管我们知道P(太阳爆炸)为0,因为像恒星一样的太阳不会爆炸成超新星。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.