p值真的是这样工作吗?每年一百万篇研究论文是否可以基于纯粹的随机性?


98

我是统计学的新手,我只是在学习理解基本知识,包括。但是我现在脑子里有一个很大的问号,我希望我的理解是错误的。这是我的思考过程:p

并非全世界的研究都像“无限猴子定理”中的猴子一样吗?考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。

假设每个学生每年使用假设检验进行至少一项研究。α=0.05

这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。考虑一下。由于“显着”的结果,每年大约有一百万篇研究论文发表。

如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。

一个简单的R代码块似乎支持我的理解:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

那么,这条成功的 -fishing:我骗了数以百万计,以为巧克力有助于减肥。这是方法p

这真的就是全部吗?这是“科学”应该如何起作用的吗?


31
真正的问题可能比将真空值乘以显着性水平还要糟糕得多,这是因为寻找显着性的压力(如果重要期刊不会发表无意义的结果,否则裁判会拒绝没有发表重要论文的论文)取得了显著成果,存在寻求达到显着性的方法的压力……我们确实在许多问题中看到了“显着性搜寻”探险);这可能导致真正的显着性水平大大高于看起来的水平。
Glen_b

5
另一方面,许多零假设都是点零,而实际上很少是零。
Glen_b

37
请不要将科学方法与p值混淆。除其他外,科学坚持再现性。例如,这就是有关冷聚变的论文可以如何发表的(1989年),但是在过去的四分之一世纪中,冷聚变作为可靠的科学理论并不存在。还要注意的是,很少有科学家对相关零假设实际上是正确的领域感兴趣。因此,您的假设“所有研究样本均来自[随机]种群”并不能反映任何现实。
ub

13
xkcd软糖卡通的强制性参考。简短的回答-不幸的是,这种情况经常发生,并且一些期刊现在坚持要求统计学家对每份出版物进行审查,以减少进入公共领域的“重要”研究的数量。在此先前的讨论中有
Floris 2015年

8
也许我没有收到抱怨……“我们成功地击败了95%的虚假假设。由于随机波动看起来像有意义的影响,其余5%的假设不那么容易被击败。我们应该仔细研究这些因素,而忽略其他95%。” 这听起来像“科学”之类的正确行为。
埃里克·塔

Answers:


70

这当然是一个有效的担忧,但这不是很正确。

如果进行了1,000,000项研究,并且所有零假设都成立,那么大约50,000项将在p <0.05时产生显着结果。这就是ap值的意思。但是,从根本上讲,null永远不会严格为真。但是,即使我们将其放宽为“几乎是正确的”或“大约正确的”或类似的意思,这也意味着这100万项研究都必须涉及诸如

  • 社会保障号码与智商的关系
  • 脚趾的长度与出生状态有关吗?

等等。废话。

当然,麻烦之一是我们不知道哪些空值是正确的。另一个问题是他的评论中提到的@Glen_b-文件抽屉问题。

这就是为什么我非常喜欢罗伯特·阿伯森(Robert Abelson)在统计学中作为原则性论点提出的观点。也就是说,统计证据应作为关于为何如此的原则性辩论的一部分,并应根据MAGIC标准进行判断:

  • 大小:效果有多大?
  • 清晰度:是否充满“ ifs”,“ ands”和“ buts”(不好)
  • 普遍性:适用范围有多广?
  • 趣味性
  • 可信度:难以置信的主张需要大量证据

4
甚至可以说“如果完成了1M的研究并且即使所有零假设都成立,那么大约50.000会执行1类错误并错误地拒绝零假设?如果研究者得到p <0.05,他们只会知道“ h0是正确的并且发生了罕见事件或h1不正确。”仅通过查看这项研究的结果就
无法分辨出

5
实际上,只有肯定的是假的,您才能得到错误的肯定。如果您选择了全部都是噪声的40个IV,那么您很可能会出现I型错误。但是通常我们选择IV是有原因的。null为假。如果null为false,则无法使I型错误。
彼得·弗洛姆

6
我完全不理解您的第二段,包括要点。假设出于争论的目的,所有100万项研究都在测试可治愈特定疾病的药物。这些研究中的每一个的无效假设是该药物不能治愈该病。那么,为什么必须“基本上从不严格如此”呢?另外,为什么您要说所有的研究都必须是关于非理性的关系,例如ss#和IQ?感谢您提供任何其他可以帮助我理解您观点的解释。
Chelonian

11
为了使@PeterFlom的示例更具体:SSN的前三位数字(用于)对申请人的邮政编码进行编码。由于各个州的人口统计信息有所不同,并且脚趾的大小可能与某些人口统计因素(年龄,种族等)相关,因此,如果一个人有足够的数据,则几乎可以肯定,社会保险号和脚趾的大小之间存在关系。
马特·克劳斯

6
@MattKrause很好的例子。我更喜欢按性别划分手指。我敢肯定,如果我对所有男人和女人进行一次普查,我会发现一种性别平均比另一种性别拥有更多的手指。如果不进行大量抽样,我不知道哪个性别的手指更多。此外,我怀疑作为手套制造商是否会在手套设计中使用手指普查数据。
emory

40

并不是所有的研究都像“无限猴子定理”猴子那样吗?

请记住,科学家批判性地不同于无限的猴子,因为他们的研究行为(尤其是实验)绝不是随机的。实验(至少应该如此)是基于在大量先前研究的基础上基于机械知情假设而进行的难以置信的精心控制的操作和测量。它们不仅是黑暗中的随机镜头(或打字机上的猴子手指)。

考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。假设每年每个学生至少进行一项研究,

已发表研究成果的数量的估计必须相去甚远。我不知道世界上是否有2300万“大学学生”(是否只包括大学或学院?),但我知道他们中的绝大多数从未发表过任何科学发现。我的意思是,其中大多数不是科学专业的学生,​​甚至大多数科学专业的学生也从未发表过研究结果。

每年对科学出版物数量的更可能的估计(一些讨论)约为1-2百万。

这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。想想看。由于“显着”的结果,每年大约有一百万篇研究论文发表。

请记住,并非所有已发表的研究都具有p值= 0.05时才有意义的统计数据。人们通常会看到p值,例如p <0.01甚至p <0.001。我不知道超过一百万篇论文的“平均” p值是多少。

如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。

还请记住,科学家真的不应该将p值在0.05左右的少数结果作为“科学事实”。差远了。科学家应该整合许多研究,每个研究都具有适当的统计能力,合理的机制,可再现性,影响的大小等,并将其纳入某种现象如何起作用的初步模型中。

但是,这是否意味着几乎所有科学都是正确的?没门。科学家是人类,容易遭受偏见,不良的研究方法(包括不正确的统计方法),欺诈,简单的人为错误和厄运。这些因素而不是p <0.05的惯例可能更能说明为什么已发表的科学论文的健康部分错误。实际上,让我们直接追逐,并做出比您所提出的还要“更刺眼”的声明:

为什么大多数已发表的研究结果都是错误的


10
我想说,约阿尼迪斯提出了一个严格的论据来支持这个问题。科学并没有像乐观主义者似乎认为的那样做任何事情。而且,许多已发表的研究从未重复。而且,当尝试复制时,结果倾向于支持Ioannidis的论点,即许多已发表的科学基本上是错误的。
matt_black

9
有趣的是,在粒子物理学中,要求发现的p值阈值为0.00000057。
David Z

2
在许多情况下,根本没有p值。数学和理论物理是常见的情况。
Davidmh,2015年

21

p

α

参见例如David Colquhoun最近对2014年论文的讨论:错误发现率与多重测试的混淆(在Colquhoun 2014年发表)。我一直在反对这个“至少30%”的估计,但是我确实同意在某些研究领域中,错误发现率可能比5%高很多。这确实令人担忧。

我认为说null几乎永远不会是true不会对您有所帮助;类型S和类型M错误(由安德鲁·盖尔曼(Andrew Gelman)引入)并不比类型I / II错误好得多。

我认为这的真正含义是,永远不要相信一个孤立的“重大”结果。

α107α=0.05

p<0.05p

p<0.05


关于“累积p值”:您可以将各个p值相乘,还是需要做一些可怕的组合才能使其起作用?
凯文

pαp

17

您的关注恰恰是当前有关可再现性的科学讨论中大量关注的关注。但是,实际情况比您建议的要复杂一些。

首先,让我们建立一些术语。零假设重要性测试可以理解为信号检测问题-零假设是正确还是错误,您可以选择拒绝还是保留它。下表给出了两个决策和两个可能的“真实”事务状态的组合,大多数人在初次学习统计信息时便会看到它们:

在此处输入图片说明

使用零假设重要性检验的科学家正在尝试使正确决策的数量最大化(以蓝色显示),并使错误决策的数量最小化(以红色显示)。在职的科学家还试图发布他们的结果,以便他们能够找到工作并发展自己的职业。

H0


H0

出版偏见

α

p

研究员自由度

αα。考虑到存在大量可疑的研究实践,即使将名义率定为.05,误报率也可能高达0.60(Simmons,Nelson和Simonsohn,2011年)。

;需要注意的是使用不当研究员自由度(有时被称为一个可疑的研究实践是非常重要的马丁森,安德森和德弗里斯,2005年是)一样的组成数据。在某些情况下,排除异常值是正确的做法,这是因为设备出现故障或其他原因。关键问题是,在存在研究人员自由度的情况下,分析过程中做出的决定通常取决于数据的结果(Gelman&Loken,2014),即使相关研究人员尚未意识到这一事实。只要研究人员使用研究人员的自由度(有意或无意地)来增加取得重大成果的可能性(也许是因为重要结果更“可发布”),研究人员自由度的存在将使带有错误肯定的研究文献人口过多。与发布偏见相同。


上述讨论的一个重要警告是,科学论文(至少在我的领域是心理学方面)很少包含单个结果。更常见的是多项研究,每项研究都涉及多项测试-重点是建立更大的论据并排除现有证据的替代解释。但是,结果的选择性表示(或存在研究人员的自由度)可能像单个结果一样容易地在一组结果中产生偏差。有证据表明,即使这些研究的所有预测都是真实的在多篇研究论文中给出的结果通常比人们的预期更清洁,更强大(Francis,2013)。


结论

从根本上讲,我同意您的直觉,即零假设重要性检验可能会出错。但是,我认为,造成误报率很高的真正罪魁祸首是诸如出版偏见和存在研究者自由度之类的过程。的确,许多科学家已经充分意识到了这些问题,提高科学的可重复性是当前讨论的一个非常活跃的话题(例如,Nosek和Bar-Anan,2012Nosek,Spies和Motyl,2012)。因此,您的关心与您相处融洽,但我也认为,有些谨慎的乐观态度也是有原因的。


参考文献

Stern,JM和Simes,RJ(1997)。出版偏倚:临床研究项目队列研究中延迟出版的证据。BMJ,315(7109),640-645。http://doi.org/10.1136/bmj.315.7109.640

Dwan,K.,Altman,DG,Arnaiz,JA,Bloom,J.,Chan,A.,Cronin,E.,…,Williamson,PR(2008)。系统研究研究偏倚和结果报告偏倚的经验证据。公共科学图书馆,3(8),e3081。http://doi.org/10.1371/journal.pone.0003081

Rosenthal,R。(1979)。文件抽屉问题和对空结果的容忍度。心理通报,86(3),638–641。http://doi.org/10.1037/0033-2909.86.3.638

西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。心理科学,22(11),1359–1366。http://doi.org/10.1177/0956797611417632

BC省的Martinson,MS的Anderson和R.的de Vries(2005)。科学家表现不佳。Nature,435,737–738。http://doi.org/10.1038/435737a

Gelman,A.,&Loken,E.(2014)。科学中的统计危机。美国科学家,102,460-465。

弗朗西斯·G(2013)。复制,统计一致性和发布偏差。数学心理学杂志,57(5),153–169。http://doi.org/10.1016/j.jmp.2013.02.003

Nosek,BA,&Bar-Anan,Y.(2012年)。科学乌托邦:I.开放科学交流。心理研究,23(3),217–243。http://doi.org/10.1080/1047840X.2012.692215

Nosek,BA,Spies,JR,&Motyl,M.(2012年)。科学乌托邦:II。调整激励措施和实践,以促进事实胜于发布。心理科学观点,7(6),615–631。http://doi.org/10.1177/1745691612459058


1
+1。很好的链接集合。这是与您的“研究人员自由度”部分非常相关的论文:分叉路径的花园:为什么即使没有“钓鱼远征”或“ p-hacking”并且研究假设为由Andrew Gelman和Eric Loken(2013)提前提出
变形虫

感谢@amoeba,提供了有趣的参考。我特别喜欢Gelman和Loken(2013)提出的观点,即利用研究人员的自由度不必是有意识的过程。我已经对答案进行了编辑,以包括该论文。
Patrick S. Forscher

我刚刚在《美国科学家》杂志上找到了Gelman&Loken(2014)的发行版本。
Patrick S. Forscher

10

对这个问题提出的重要问题的实质检验是,“科学真理”不是建立在个别的,孤立的出版物上的。如果结果足够有趣,它将促使其他科学家继续研究结果的含义。这项工作将倾向于证实或驳斥最初的发现。在单个研究中,可能有1/20的机会会拒绝一个真实的零假设,但连续两次拒绝该假设的机会只有1/400。

如果科学家只是简单地重复实验直到发现“重要性”,然后发表他们的结果,那么问题可能就如OP所言。但这至少不是在我近50年的生物医学研究经验中科学才如此。此外,出版物很少涉及单个“重要”实验,而是基于一组相互关联的实验(每个实验都需要自己“重要”),这些实验共同为更广泛的实质性假设提供了支持。

一个更大的问题来自过于致力于自己的假设的科学家。然后,他们可能会过度解释单个实验的含义以支持其假设,进行可疑的数据编辑(例如任意删除异常值),或者(如我所见并帮助捕获的)只是构成数据。

然而,科学是一个高度社会化的过程,无论关于疯子科学家高高地藏在象牙塔中的神话。根据他们从他人的工作中学到的知识,成千上万追求自己利益的科学家的奉承和奉献是防止误报的最终制度保护。错误的发现有时可能会持续多年,但如果问题足够重要,则该过程将最终确定错误的结论。


6
1/400040

2
在2300万项研究中,我们仍然无法确定5.000个结果是否仅由于噪声而否定了原假设。这确实也是规模问题。一旦进行了数百万次研究,第1类错误将很常见。
n_mu_sigma 2015年

3
如果在23,000,000项研究中只有5000个错误的结论,那我的确是不常见的
ub

3
在从事科学和认识其他科学家的近50年中,我想不出任何重复实验的人,直到他们取得了“重大意义”。以我的经验,@ whuber提出的理论可能性不是很大的实际问题。更大的实际问题是构建数据,要么通过丢弃不符合先入之见的“异常值”,要么只是从头开始构建“数据”。我亲眼目睹了这些行为,无法通过调整p值来解决。
EdM 2015年

3
@EdM“在一项单独的研究中,可能有1/20的机会会拒绝一个真实的零假设,但连续两次只有1/4000的机会会被拒绝。” 您是怎么得到第二个号码的?
阿克萨卡(Aksakal)

5

只是为了增加讨论,是一篇有趣的文章,以及随后的有关人们通常如何误解p值的讨论。

在任何情况下都应保留的是,p值只是衡量拒绝给定假设的证据强度的度量。p值绝对不是一个硬阈值,在该阈值以下是“ true”,在该阈值之上仅是偶然。如上述参考文章所述:

结果是真实效果和机会的结合,并非非此即彼


:也许这将有助于p值的理解stats.stackexchange.com/questions/166323/...

4

正如在其他答案中所指出的那样,如果您要选择性地考虑排除零假设的肯定结果,那么这只会引起问题。这就是为什么科学家在撰写评论文章时会考虑以前发表的研究结果,并试图以此为基础更好地理解该主题的原因。但是,仍然存在一个问题,这是由于所谓的“出版偏见”造成的,即科学家们更有可能写一篇关于积极结果的文章,而不是关于消极结果的文章,关于消极结果的论文也是比发表积极成果的论文更有可能被拒绝发表。

特别是在统计测试非常重要的领域,这将是一个大问题,医学领域就是一个臭名昭著的例子。这就是为什么必须在进行临床试验之前(例如在此处)进行注册。因此,您必须在试验开始之前说明设置,统计分析将如何执行等。如果领先的医学期刊报告的试验没有注册,他们将拒绝发表论文。

不幸的是,尽管采取了这种措施,该系统仍无法很好地运行


:也许这将有助于p值的理解stats.stackexchange.com/questions/166323/...

3

这接近于关于科学方法的一个非常重要的事实:它强调可证伪性。当今最流行的科学哲学将卡尔·波普尔的可证伪性概念作为基石。

因此,基本的科学过程是:

  • 任何人都可以随时声明他们想要的任何理论。科学将接受任何“可证伪的”理论。这个词的最直接的含义是,如果其他人不喜欢该主张,则该人可以自由地花费资源来证明该主张。如果您不认为菱形袜可以治愈癌症,则可以自由地使用自己的医疗病房来驳斥它。

  • 由于此进入门槛极低,因此传统上,作为一个文化团体的“科学”在您做出“努力”来伪造自己的理论之前不会真正接受任何想法。

  • 接受想法往往会分阶段进行。您可以将您的概念纳入一项研究且p值较低的期刊文章中。可以为您带来好处的是宣传和一定的信誉。如果某人对您的想法感兴趣,例如您的科学具有工程应用程序,那么他们可能想使用它。那时,他们更有可能资助另一轮的伪造。

  • 这个过程始终以相同的态度进行:相信您想要的东西,但是要称其为科学,我需要能够在以后进行反驳。

如此低的准入门槛是使其如此创新的原因。所以是的,那里有大量理论上“错误”的期刊文章。但是,关键是理论上每篇已发表的文章都是伪造的,因此在任何时间点,有人都可以花钱进行测试。

这是关键:日记不仅包含通过合理的p检验的事物,而且还包含其他密钥,如果结果被证明是错误的,则其他人可以将其拆除。


1
这是非常理想的。某些人担心过多的错误论文会导致文献中信噪比过低,从而严重减慢或误导科学过程。
变形虫

1
@amoeba您确实提出了一个要点。我当然想捕捉理想的情况,因为我发现它经常在噪音中迷失了。除此之外,我认为文献中的SNR问题是一个有效的问题,但至少它应该是可解决的。已经有好的期刊和劣质期刊的概念,因此有一些暗示表明平衡行为已经进行了一段时间。
Cort Ammon 2015年

对科学哲学的这种理解似乎已经过时了几十年。在关于科学如何发生的普遍的城市神话中,波普尔的可证伪性只是“受欢迎” 。
EnergyNumbers 2015年

@EnergyNumbers您能启发我新的思维方式吗?SE哲学与您的观点截然不同。如果您看看那边的问题历史,那么对于大多数讲自己的声音的人来说,波普尔式的可证伪性是科学基本特征。我很想学习一种新的思维方式,并将其带到那里!
科特阿蒙

新?库恩几十年前驳斥了波普尔。如果您还没有在Philosophy.se上发表过Popperian的文章,那么对其进行更新似乎是一个迷失的原因-留在1950年代。如果您想更新自己,那么任何21世纪有关科学哲学的本科入门知识都可以帮助您入门。
EnergyNumbers

1

这是“科学”应该如何起作用的吗?

这就是许多社会科学的工作方式。物理科学没有那么多。考虑一下:您在计算机上输入了问题。人们能够利用物理,化学和物理科学的其他领域的知识来构建称为计算机的这些复杂的野兽。如果情况如您所描述的那样糟糕,则所有电子设备都将无法工作。或想像像电子质量之类的东西,它以疯狂的精确度着称。它们经过计算机中数十亿个逻辑门,并且您的计算机仍然可以正常工作多年。

更新:为了回应我收到的反对票,我很高兴举几个例子。

第一个来自物理学:Bystritsky,VM等。“ 使用氘化锆靶在超低能区中测量天体S因子和p(d,γ)3He反应的截面。” 粒子与原子核物理学10.7(2013):717-722。

0.237±0.061

我的下一个示例来自……心理学:Paustian-Underdahl,Samantha C.,Lisa Slattery Walker和David J. Woehr。“ 性别和领导效能感:对上下文主持人的荟萃分析。” 应用心理学杂志,2014年,第1期。99,第6号,1129 – 1145。

χ2

现在,查看论文中的一些表格,并猜测它们来自哪些论文:

在此处输入图片说明 在此处输入图片说明

这就是为什么在一种情况下您需要“很酷”的统计信息而在另一种情况下您不需要的统计信息的原因:因为数据不是很糟糕。当您拥有良好的数据时,除了标准错误外,您不需要太多统计信息。

UPDATE2:@ PatrickS.Forscher在评论中做了一个有趣的声明:

的确,社会科学理论比物理理论“更软”(不太正式)。

我必须不同意。在经济学和金融学中,这些理论根本不是“软”的。您可以在这些字段中随机查找一篇论文,并获得如下信息:

在此处输入图片说明

等等。

来自谢尔维什,马克·J。,泰迪·塞登费尔德和约瑟夫·卡丹。“ 期望效用理论的扩展和成对比较的一些局限性。” (2003)。这对您来说看起来柔软吗?

我在这里再次重申我的观点,即当您的理论不佳且数据糟糕时,您可以使用最困难的数学方法,但仍然会得出糟糕的结果。

在本文中,他们谈论的是效用,即幸福和满足之类的概念-绝对不可观察。这就像有房子还是吃芝士汉堡有什么用?大概有这个功能,您可以在其中插入“吃芝士汉堡”或“住自己的房子”,该功能将以某些单位显示答案。多亏冯·诺伊曼(von Neuman),这听起来很疯狂,这才是现代经济学的基础。


1
+1不确定为什么这被否决了两次。您基本上是在指出,物理学的发现可以用实验来检验,而社会科学中的大多数“发现”却不能,这并不能阻止它们引起媒体的广泛关注。
Flounderer

6
大多数实验最终都涉及某种统计测试,并且仍然为1类错误和不当行为(例如p值钓鱼)留有余地。我认为单单选择社会科学有点不合时宜。
肯吉

4
为了稍微修改@GuilhermeKenjiChihaya的说法,可以将误差的标准偏差用来进行物理实验中的统计检验。推测这项统计测试得出的结论是,作者查看带有误差线的图形时得出的结论是:使用p值的基本逻辑是有效还是无效。
Patrick S. Forscher

3
另外,@ Flounderer,您似乎在使用我不熟悉的术语“实验”,因为社会科学家一直都在进行“实验”(即根据条件随机分配单位)。的确,社会科学实验很难控制到与物理实验相同的程度。的确,社会科学理论比物理理论“更软”(不太正式)。但是这些因素与给定的研究是否为“实验”无关。
Patrick S. Forscher

2
@Aksakal虽然我不同意-1,但我也部分不同意你对社会科学的批评。您的经济学论文例子也不是社会科学家日常工作的一个很好的例子,因为效用理论是严格的经济学/数学/统计概念(因此它已经包含数学),并且与例如心理学理论并不相似。经过实验测试...但是,我同意,在很多研究领域(包括社会科学领域)通常会松散使用统计学。
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.