我们对“野外” p黑客了解多少?


94

短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于:

  • 分析发现模式的数据的“有趣”子集
  • 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试;
  • 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验;
  • 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点);
  • 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中;
  • 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。

因此,我们知道可以进行p- hacking。它经常被列为p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。

当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法:

  • 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?)
  • 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p 0.01p0.05p0.01
  • p- hacking的模式在各个学术领域是否有所不同?
  • 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现?

参考文献

负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果PLoS Biol13(3),e1002106。


6
您的最后一个问题是进行研究的一个好主意:将原始数据提供给来自不同领域的一组研究人员,将其装备在SPSS中(或他们使用的任何设备),然后记录他们在做什么时互相竞争以获取更有意义的结果。
蒂姆

1
使用kaggle提交的历史,受试者可能可以做到这一点而无需受试者知道它正在发生。他们没有发布,但是他们正在尽一切可能达到神奇的数字。
EngrStudent

1
交叉验证是否包含p-hack的简单模拟示例的任何集合(例如,社区Wiki)?我想象的玩具例子,其中模拟的研究人员通过收集更多的数据反应“轻微显著”的结果,与回归规格等实验
阿德里安

2
@Adrian CV只是一个问答网站,它不保存任何数据或代码,也没有任何隐藏的存储库-您在答案中找到的所有内容都是您在CC许可下的内容:)这个问题似乎是关于收集此类示例的问题。
蒂姆

1
@Tim当然,我没有想象任何隐藏的代码存储库-答案中仅包含代码段。例如,有人可能会问“什么是p-hacking?”,而有人可能会在答案中包含玩具R模拟。用代码示例回答当前问题是否合适?“我们知道多少”是一个非常广泛的问题。
阿德里安

Answers:


76

执行摘要:如果广义上理解“ p-hacking”是la Gelman的分叉之路,那么答案是多么普遍,几乎是普遍的。


安德鲁·盖尔曼(Andrew Gelman)喜欢写这个话题,并且最近在他的博客上发表了大量有关这个话题的文章。我并不总是同意他的观点,但是我喜欢他对 hacking的看法。这是他的《分叉路径的花园简介论文的摘录(Gelman&Loken 2013; 2014年《美国科学家》上刊登的版本 ;另见Gelman对ASA声明的简短评论),重点是我的:p

这个问题有时被称为“ p-hacking”或“研究者自由度”(Simmons,Nelson和Simonsohn,2011年)。在最近的一篇文章中,我们谈到了“钓鱼远征[...]”。但是,我们开始感到“钓鱼”一词很不幸,因为它唤起了研究人员在比较之后尝试比较的形象,反复将钓线扔进湖中,直到鱼被卡住。我们没有理由认为研究人员会定期这样做。我们认为,真实的故事是,研究人员可以根据他们的假设和数据进行合理的分析,但是如果得出的数据不同,则他们可以进行其他在这种情况下同样合理的分析。

我们为“钓鱼”和“ p-hacking”(甚至是“研究人员的自由度”)之所以传播感到遗憾,原因有两个:第一,因为当使用这些术语描述研究时,存在误导性暗示研究人员有意识地在一个数据集上尝试了许多不同的分析;其次,因为它可能导致知道他们没有尝试许多不同分析的研究人员误认为他们没有受到研究人员自由度问题的强烈攻击。[...] 这里的关键点是,就数据分析而言,有可能进行多种潜在的比较,其细节高度依赖于数据,而无需研究人员执行任何有意识的捕捞或检查多个p值的程序。

因此:盖尔曼(Gelman)不喜欢“ p-hacking ”一词,因为它暗示研究正在积极作弊。出现问题的原因很简单,因为研究人员在查看数据后(即进行了一些探索性分析之后)选择了执行/报告哪种测试。

凭着在生物学领域的一些经验,我可以肯定地说每个人都能做到。每个人(包括我自己)仅凭模糊的先验假设收集一些数据,进行广泛的探索性分析,运行各种重要性测试,收集更多的数据,运行并重新运行测试,最后在最终的手稿中报告一些。所有这些都是在没有积极作弊,愚蠢的xkcd-jelly-beans风格的樱桃采摘或有意识地窃取任何东西的情况下发生的。p

因此,如果从广义上理解“ p-hacking”是la Gelman的分叉之路,那么答案之所以普遍,是因为它几乎是普遍的。

唯一想到的例外是完全预先注册的心理学复制研究或完全预先注册的医学试验。

具体证据

有趣的是,一些人对研究人员进行了调查,发现许多人承认他们进行了某种形式的黑客攻击(John等人,2012年,《通过讲真话的动机来衡量可疑研究实践的普遍性):

约翰等

除此之外,每个人都听说过心理学中所谓的“复制危机”:在顶级心理学期刊上发表的最新研究中有一半以上没有复制(Nosek等人,2015年,《估计心理学的可再现性》)。(这项研究最近又遍及整个博客,因为2016年3月的《科学》杂志发表了一条评论,试图驳斥Nosek等人的观点,也发表了Nosek等人的答复。讨论在其他地方继续进行,请参见Andrew Gelman撤消观看他链接到的帖子。礼貌地说,批评是令人信服的。)

2018年11月更新: Kaplan和Irvin,2017年,大型NHLBI临床试验无效影响的可能性随着时间的推移而增加,表明报告临床无效的比例在需要预先注册后报告无效结果的比例从43%增加到92%:

在此处输入图片说明


P文献中的值分布

Head等。2015年

我还没有听说过Head等人。以前学习过,但现在花了一些时间浏览周围的文献。我还简要查看了它们的原始数据

Head等。从PubMed下载了所有Open Access论文,并提取了文本中报告的所有p值,从而获得270万个p值。其中,有110万人报告为而不是。其中,Head等人。每张纸随机取一个p值,但这似乎并没有改变分布,所以这是所有1.1百万值的分布的样子(介于和之间):p=ap<a00.06

p值在文献中的分布

我使用 bin宽度,并且可以清楚地看到在报告的有许多可预测的舍入。现在,Head等。执行以下操作:它们比较的数目 -值在的时间间隔和在间隔; 以前的数字证明(明显)更大,并且将其作为 hacking 的证据。如果one着眼睛,可以在我的身上看到它。0.0001pp(0.045,0.5)(0.04,0.045)p

我发现这非常令人信服,原因很简单。谁想用报告他们的发现?实际上,很多人似乎都在这样做,但是仍然很自然地尝试避免这种不令人满意的边界线值,而是报告另一个有效数字,例如(当然,除非)。因此,接近的但不等于一些多余值可以用研究者的四舍五入偏好来解释。p=0.05p=0.048p=0.052p0.05

除此之外,效果很小

(我在该图上看到的唯一强烈影响是值密度在之后显着下降。这显然是由于出版偏见所致。)p0.05

除非我错过了什么,否则Head等。甚至不讨论这种潜在的替代解释。它们也不显示任何直方图。p

有很多论文批评赫德等人。在此未出版的手稿中, Hartgerink认为Head等人。应该在比较中包括和(如果有的话,他们就不会发现效果)。我对此不确定。听起来并不令人信服。如果我们能够以某种方式检查“原始”的分布而不进行舍入,那就更好了。p=0.04p=0.05p

不取整的分布p

2016年的PeerJ论文(预印本于2015年发布)中,相同的Hartgerink等人。从顶级心理学期刊的大量论文中提取p值,并精确地做到这一点:它们从报告的, -,等统计值中重新计算出精确的值。此分布没有任何舍入伪像,并且没有表现出对0.05的任何增加(图4):ptFχ2

Hartgerink PeerJ论文

Krawczyk 2015在PLoS One中采用了一种非常相似的方法,该方法从顶级实验心理学期刊中提取了135k。这是分布查找报告的(左)和重新计算的(右):pp

克拉维奇克

区别是惊人的。左方的直方图显示一些奇怪的东西在左右发生,而在右边的直方图消失了。这意味着这种怪异的东西是由于人们偏爱报告左右的值,而不是由于 hacking。p=0.05p0.05p

Mascicampo和Lalande

似乎第一个观察到据称超逾 0.05的人是Masicampo&Lalande 2012,研究了三本心理学顶级期刊:p

Mascicampo和Lalande

这看起来确实令人印象深刻,但是Lakens 2015预印本)在已发表的《评论》中辩称,由于误导的指数拟合,这才显得令人印象深刻。另请参阅Lakens 2015,关于从略低于0.05的p值得出结论的挑战及其中的引用。

经济学

Brodeur等。2016年(链接指向2013年预印本)对经济学文献而言是相同的。查看这三种经济学期刊,提取50k测试结果,将所有结果转换为分数(尽可能使用报告的系数和标准误差,如果仅报告了,则使用),然后得到以下结果:zp

布罗代尔

这有点令人困惑,因为小在右侧,大在左侧。正如作者在摘要中写道的那样,“ p值的分布呈现出骆驼形状,p值高于.25时有丰富的峰”和“ 0.25到.10之间的谷”。他们争辩说,这个山谷表明有些可疑,但这只是间接证据。同样,这可能仅是由于选择性报告所致,当报告大于.25的大p值被认为是缺乏效果的一些证据,但认为0.1和.25之间的p值既不存在也不存在,并且倾向于被省略。(我不确定生物学文献中是否存在这种效果,因为上面的图集中在区间上。)ppp<0.05


错误地放心?

基于以上所有内容,我的结论是,我没有看到任何有力证据证明整个生物学/心理学文献中的值分布都存在 hacking 。有大量的选择性报告,发表偏倚的证据,舍入 -值下降到和其他有趣的四舍五入的影响,但我不同意Head等的结论:下面有没有可疑的凹凸。ppp0.05 0.050.050.05

乌里·西蒙索恩(Uri Simonsohn)辩称这是“错误的保证”。好吧,实际上他是不加批判地引用了这些论文,但随后指出“大多数p值都远小于0.05”。然后他说:“那令人放心,但错误地让人放心”。这就是为什么:

如果我们想知道研究人员是否p-hack他们的结果,我们需要检查与他们的结果相关联的p值,他们可能首先想p-hack。样本必须是无偏见的,仅应包含感兴趣人群的观察结果。

大多数论文中报道的大多数p值与目标策略行为无关。协变量,操作检查,研究交互作用的研究的主要效果等。包括它们在内,我们低估了p-hacking,而我们高估了数据的证据价值。分析所有p值会提出一个不同的问题,一个不太明智的问题。而不是“研究人员会p-hack他们学习的东西吗?”,而是问“研究人员是否p-hack一切吗?”

这是完全合理的。查看所有报告的值太吵了。Uri的曲线论文(Simonsohn等人,2013年)很好地证明了如果人们仔细选择就能看到什么。他们基于一些可疑的关键字选择了20篇心理学论文(即,这些论文的作者报告了控制协变量的测试,没有报告如果不控制协变量会发生什么),然后仅采用来检验主要发现。这是分布的样子(左):ppp ppp

西蒙索恩

强烈的左偏斜表明强烈的 hacking。p

结论

我要说的是,我们知道,有一定有很多的回事-hacking,大部分是格尔曼描述分岔路径类型; 可能是因为已发布的值不能真正以票面价值获得,应该由读者“折让”相当大的一部分。但是,这种态度似乎产生的影响远不只是简单地将总体分布中的一个颠簸降低到以下,而且这种钝化分析并不能真正发现这种态度。ppp 0.05 p0.05


4
simply because the researches chose what test to perform/report after looking at the data是; 由于双刃,这个问题是不可避免的。当为数据选择更好的方法时-是该特定样本的过度拟合还是该人群的技术调用会议?或者-移除异常值-是伪造人口还是正在恢复人口呢?最终谁会说?
ttnphns

我最希望得到的答案可能是对当前文献的简要介绍,或者一些有关Head等论文是否是对最新思想的公正总结的指针,等等。我根本没想到这个答案。但是我认为这很棒,而且盖尔曼的思想和实际见解特别有帮助。当我写问题时,我实际上想到的是与@ttnphns类似的东西(也许它表明,我什至考虑包括“ overfitting”一词。)
Silverfish

但是,除了“科学在实践中如何运作”的普遍且不可避免的不适感不能完全等同于统计测试的假设之外,我确实想知道这个“恶意p黑客的黑手艺”是否真的存在,并且如果是这样,那么它能到达多远。肯定有强烈的(错误的)激励措施来鼓励它。
Silverfish

2
您让我对Head等人感到好奇。论文@Silverfish,所以我现在必须承认,不是工作,而是浏览一些批评Head等人结果的论文,甚至已经下载了原始数据……我的天哪。
变形虫

2
+1。Gelman的最新博客文章(andrewgelman.com/2016/03/09/…)涵盖了很多方面,并强调了一群试图进行复制并随后遭到原始研究作者强烈批评的有趣的重新加入:retractionwatch.com/ 2016/03/07 /…
韦恩

22

漏斗图是一项巨大的统计创新,使元分析成为现实。基本上,漏斗图在同一图上显示了临床和统计意义。理想情况下,它们将形成漏斗形状。但是,一些荟萃分析产生了显示出强双峰形状的漏斗图,其中研究者(或出版商)有选择地隐瞒了无效的结果。结果是三角形变得更宽,因为较小的,功能较少的研究使用了更激烈的方法来“鼓励”结果以达到统计显着性。Cochrane报告小组对此有话要说

如果存在偏见,例如因为没有统计学意义的较小研究(未显示在图10.4.a中的空心圆,图A)仍未发布,则将导致漏斗图的外观不对称,并且在底角处留有缝隙图(面板B)。在这种情况下,通过荟萃分析计算出的效果将倾向于高估干预效果(Egger 1997a,Villar 1997)。不对称性越明显,偏差量就越可能很大。

第一个图显示了没有偏差的对称图。第二个图显示了存在报告偏差的不对称图。第三幅图显示存在偏差时的不对称图,因为一些较小的研究(空心圆)的方法质量较低,因此产生了夸大的干预效果估计。

在此处输入图片说明

在此处输入图片说明

在此处输入图片说明

我怀疑大多数作者都不了解他们用于p-hack的方法。他们不会跟踪适用的模型总数,每次都应用不同的排除标准或选择不同的调整变量。但是,如果我必须执行一个简单的过程,那么我希望看到适合的模型总数。这并不是说重新运行模型可能有正当的理由,例如,我们只是在不知道样本中已经收集了ApoE的情况下进行了Alzheimer的分析。鸡蛋在我的脸上,我们重新运行了模型。


4

2
我的问题的一个方面是“ p-hacking”和“ publicationbias”之间的区别-这个答案在某些方面使两者混为一谈。我以这种方式来解释您的意思是否正确,即“发布偏见本质上是p-hack的一种形式,但是发布者的形式”?
银鱼

1
pp

2
嗯 首先,我想提出抗议,并声称出版偏见不同于p-hacking(类似地,我认为@Silverfish也如何构筑他的Q),但后来我意识到,画出界限比我原本想的要棘手。进行软糖风格的多次比较并仅报告重要的结果(p-hacking?)与进行多次研究并仅报告重要的结果(定义上是出版偏向)没有太大区别。尽管如此,从数据的角度直到它们产生p <0.05的意义上的p-hack确实对我来说有很大的不同。
变形虫

2
pp
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.