解释xkcd软糖漫画:是什么使它有趣?


59

我看到一个超时它们运行的20次总的测试,,所以他们错误地认为,二十测试之一中,其结果是显著(0.05 = 1 / 20)。p<0.050.05=1/20

xkcd果冻豆漫画-“重要”

  • 标题:重要
  • 悬停文字:“所以,呃,我们再次进行了绿色研究,但没有任何联系。这可能是-''研究发现冲突于绿色果冻豆/痤疮链接;建议进行更多研究!”

xkcd漫画882-“重要”


8
95%的置信度意味着平均有5%的实验(20个实验中的1个)会得出相反的结论。这正是这里发生的事情。也就是说,如果您也对橘子软糖进行了1000次相同的实验,那么其中的50个会给出积极的结果。:)
sashkello 2014年

19
谁说这很有趣?
ub

3
funniness>0funniness<0(p<.05)


3
@Glen_b,最喜欢的数据分析卡通线程是适当的CW,但是,我认为没有理由这样做。除了“为什么有趣”之外,这个问题还要求您对动画片中的问题统计点有所了解,该动画片有一个答案,并且应该是专题而非CW(我认为您会在下面很好地处理)。
gung-恢复莫妮卡

Answers:


68

幽默是一件非常个人的事情-有些人会发现它很有趣,但对所有人来说可能并不有趣-并且试图解释使一件有趣的事情变得有趣的事情常常无法传达出这一有趣之处,即使他们解释了要点。实际上,并不是所有的xkcd都实际上很有趣。但是,许多人确实以令人深思的方式提出了重要观点,至少在这样做的时候,有时他们很有趣。(我个人觉得很有趣,但我觉得很难解释清楚,究竟是什么,使得它可笑我。我想部分原因是的方式认识到一个值得怀疑的,甚至是可疑的结果变成一个媒体马戏团(上另请参阅此博士漫画),也许部分是对某些研究可能实际进行的方式的认可-如果通常不是有意识的话。

但是,不管它是否使您的滑稽骨发痒,您都可以理解这一点。

关键是要在某个中等显着性水平(例如5%)上进行多个假设检验,然后公布一个显着的检验。当然,如果您进行20项这样的测试,而实际上没有任何重要的事情发生,那么给出显着结果的那些测试的预期数量为1。对大致的头内近似。n1n

在漫画中,兰德尔描绘了20个测试,所以毫无疑问,这是他的观点(即使什么也没有发生,您都希望得到一个重要的分数)。虚构的报纸文章甚至用副标题“只有5%的巧合!”来强调这个问题。(如果最后完成的一项测试是唯一完成的测试,则可能是这种情况。)


当然,还有一个更微妙的问题,即单个研究人员的行为可能会更加合理,但是仍然普遍出现误报的问题。假设这些研究人员仅以1%的水平进行了5次测试,因此发现这样的假结果的总体机会只有大约5%。

到现在为止还挺好。但是现在想象有20个这样的研究小组,每个研究小组测试他们认为有理由尝试的任何随机颜色子集。还是100个研究小组...现在像漫画中那样的头条新闻有什么机会?

因此,从更广泛的意义上讲,漫画可能更普遍地引用了出版偏见。如果只说出重要的结果,我们将不会听到数十个对绿色豆形软糖一无所获的小组,只有一个能做到这一点。

的确,这是本文所要表达的要点之一,这是最近几个月来的新闻(例如,尽管此处是2005年的文章)。

对该文章回应强调了复制的必要性。请注意,如果发表的研究有多次重复,那么“与痤疮相关的绿色豆形软糖”的结果将很难成立。

(实际上,漫画的悬停文字巧妙地引用了同一点。)


11

假设检验对发布决策的影响已在50多年前的1959年JASA论文《出版决策及其对从显着性检验(或副词Versa)得出的推论的可能影响》中进行了描述(抱歉,收费专区)。

论文概述本文指出了科学论文发表的结果并非所有研究结果的代表性样本的证据。作者回顾了在四个主要心理学期刊上发表的论文。97%的评论论文报告了其主要科学假设的统计学显着结果。

作者对此观察结果提出了一种可能的解释:没有发表产生不重要结果的研究。可以独立地重复进行其他研究者未知的此类研究,直到最终偶然出现重大结果(第1类错误)并发表为止。这打开了可能的可能性,即已发表的科学文献可能过多地表示了由统计显着性测试中的类型1错误导致的错误结果,而这恰恰是原始XKCD漫画所取笑的情况。

此一般观察结果随后得到验证,并可能在随后的几年中被重新发现。我相信1959年的JASA论文是提出该假设的第一篇。该论文的作者是我的博士生导师。35年后,我们更新了他在1959年发表的论文,并得出了相同的结论。再次审查出版决策:统计测试结果对出版决策的影响,反之亦然。 美国统计学家,第49卷,第1期,1995年2月


当然-我在上面编辑了我的回复,以包括论文的概述。
Wilf Rosenbaum 2015年


-2

人们忽略的是,果冻豆盒的实际p值不是.05,而是.64。仅假装(标称)p值为.05。实际p值与假想p值之间存在差异。即使所有零值都为真,发现达到标称水平的十分之一的概率也不是.05,而是.64。另一方面,如果您评估的证据是比较可能性,那么除了误差统计(p值位于其中)之外,最流行的观点就是您会说H的证据:果冻豆与痤疮确实相关。这是因为P(x;无作用)<P(x; H)。左侧<0.05,而右侧则很高:如果果冻豆确实引起粉刺,则很可能发现观察到的关联。由于可能性取决于获得的实际数据,因此仅靠可能性无法弥补错误概率。评估没有什么不同,就像对果冻豆和粉刺所做的一项测试一样。因此,尽管通常认为该动画片取笑p值,但有趣的是,这说明了为什么我们需要考虑整体错误概率(就像非伪造的p值一样),而不仅仅是可能性。贝叶斯推断也以结果为条件,而忽略错误概率。对于贝叶斯,避免找到H证据的唯一方法是在H中具有较低的先验值。但是,由于所使用的搜寻程序,我们将调整p值,而不管主题是什么,并且不依赖先验值。找到假设进行检验。即使被追捕的H令人信服,仍然是一个糟糕的测试。Errorstatistics.com


2
很难确切说明此帖子要说的是什么。让我集中讨论其中的一部分,希望澄清一下可以揭示其余部分的含义:“总体错误概率”到底是什么意思?
whuber

2
@whuber我相信帖子是指多重比较问题。
马特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.