执行摘要:如果广义上理解“ p-hacking”是la Gelman的分叉之路,那么答案是多么普遍,几乎是普遍的。
安德鲁·盖尔曼(Andrew Gelman)喜欢写这个话题,并且最近在他的博客上发表了大量有关这个话题的文章。我并不总是同意他的观点,但是我喜欢他对 hacking的看法。这是他的《分叉路径的花园简介》论文的摘录(Gelman&Loken 2013; 2014年《美国科学家》上刊登的版本 ;另见Gelman对ASA声明的简短评论),重点是我的:p
这个问题有时被称为“ p-hacking”或“研究者自由度”(Simmons,Nelson和Simonsohn,2011年)。在最近的一篇文章中,我们谈到了“钓鱼远征[...]”。但是,我们开始感到“钓鱼”一词很不幸,因为它唤起了研究人员在比较之后尝试比较的形象,反复将钓线扔进湖中,直到鱼被卡住。我们没有理由认为研究人员会定期这样做。我们认为,真实的故事是,研究人员可以根据他们的假设和数据进行合理的分析,但是如果得出的数据不同,则他们可以进行其他在这种情况下同样合理的分析。
我们为“钓鱼”和“ p-hacking”(甚至是“研究人员的自由度”)之所以传播感到遗憾,原因有两个:第一,因为当使用这些术语描述研究时,存在误导性暗示研究人员有意识地在一个数据集上尝试了许多不同的分析;其次,因为它可能导致知道他们没有尝试许多不同分析的研究人员误认为他们没有受到研究人员自由度问题的强烈攻击。[...]
这里的关键点是,就数据分析而言,有可能进行多种潜在的比较,其细节高度依赖于数据,而无需研究人员执行任何有意识的捕捞或检查多个p值的程序。
因此:盖尔曼(Gelman)不喜欢“ p-hacking ”一词,因为它暗示研究正在积极作弊。出现问题的原因很简单,因为研究人员在查看数据后(即进行了一些探索性分析之后)选择了执行/报告哪种测试。
凭着在生物学领域的一些经验,我可以肯定地说每个人都能做到。每个人(包括我自己)仅凭模糊的先验假设收集一些数据,进行广泛的探索性分析,运行各种重要性测试,收集更多的数据,运行并重新运行测试,最后在最终的手稿中报告一些。所有这些都是在没有积极作弊,愚蠢的xkcd-jelly-beans风格的樱桃采摘或有意识地窃取任何东西的情况下发生的。p
因此,如果从广义上理解“ p-hacking”是la Gelman的分叉之路,那么答案之所以普遍,是因为它几乎是普遍的。
唯一想到的例外是完全预先注册的心理学复制研究或完全预先注册的医学试验。
具体证据
有趣的是,一些人对研究人员进行了调查,发现许多人承认他们进行了某种形式的黑客攻击(John等人,2012年,《通过讲真话的动机来衡量可疑研究实践的普遍性):
除此之外,每个人都听说过心理学中所谓的“复制危机”:在顶级心理学期刊上发表的最新研究中有一半以上没有复制(Nosek等人,2015年,《估计心理学的可再现性》)。(这项研究最近又遍及整个博客,因为2016年3月的《科学》杂志发表了一条评论,试图驳斥Nosek等人的观点,也发表了Nosek等人的答复。讨论在其他地方继续进行,请参见Andrew Gelman 和撤消观看他链接到的帖子。礼貌地说,批评是令人信服的。)
2018年11月更新: Kaplan和Irvin,2017年,大型NHLBI临床试验无效影响的可能性随着时间的推移而增加,表明报告临床无效的比例在需要预先注册后报告无效结果的比例从43%增加到92%:
P文献中的值分布
Head等。2015年
我还没有听说过Head等人。以前学习过,但现在花了一些时间浏览周围的文献。我还简要查看了它们的原始数据。
Head等。从PubMed下载了所有Open Access论文,并提取了文本中报告的所有p值,从而获得270万个p值。其中,有110万人报告为而不是。其中,Head等人。每张纸随机取一个p值,但这似乎并没有改变分布,所以这是所有1.1百万值的分布的样子(介于和之间):p=ap<a00.06
我使用 bin宽度,并且可以清楚地看到在报告的有许多可预测的舍入。现在,Head等。执行以下操作:它们比较的数目 -值在的时间间隔和在间隔; 以前的数字证明(明显)更大,并且将其作为 hacking 的证据。如果one着眼睛,可以在我的身上看到它。0.0001pp(0.045,0.5)(0.04,0.045)p
我发现这非常令人信服,原因很简单。谁想用报告他们的发现?实际上,很多人似乎都在这样做,但是仍然很自然地尝试避免这种不令人满意的边界线值,而是报告另一个有效数字,例如(当然,除非)。因此,接近的但不等于一些多余值可以用研究者的四舍五入偏好来解释。p=0.05p=0.048p=0.052p0.05
除此之外,效果很小。
(我在该图上看到的唯一强烈影响是值密度在之后显着下降。这显然是由于出版偏见所致。)p0.05
除非我错过了什么,否则Head等。甚至不讨论这种潜在的替代解释。它们也不显示任何直方图。p
有很多论文批评赫德等人。在此未出版的手稿中, Hartgerink认为Head等人。应该在比较中包括和(如果有的话,他们就不会发现效果)。我对此不确定。听起来并不令人信服。如果我们能够以某种方式检查“原始”的分布而不进行舍入,那就更好了。p=0.04p=0.05p
不取整的分布p
在2016年的PeerJ论文(预印本于2015年发布)中,相同的Hartgerink等人。从顶级心理学期刊的大量论文中提取p值,并精确地做到这一点:它们从报告的, -,等统计值中重新计算出精确的值。此分布没有任何舍入伪像,并且没有表现出对0.05的任何增加(图4):ptFχ2
Krawczyk 2015在PLoS One中采用了一种非常相似的方法,该方法从顶级实验心理学期刊中提取了135k。这是分布查找报告的(左)和重新计算的(右):pp
区别是惊人的。左方的直方图显示一些奇怪的东西在左右发生,而在右边的直方图消失了。这意味着这种怪异的东西是由于人们偏爱报告左右的值,而不是由于 hacking。p=0.05p≈0.05p
Mascicampo和Lalande
似乎第一个观察到据称超逾 0.05的人是Masicampo&Lalande 2012,研究了三本心理学顶级期刊:p
这看起来确实令人印象深刻,但是Lakens 2015(预印本)在已发表的《评论》中辩称,由于误导的指数拟合,这才显得令人印象深刻。另请参阅Lakens 2015,关于从略低于0.05的p值得出结论的挑战及其中的引用。
经济学
Brodeur等。2016年(链接指向2013年预印本)对经济学文献而言是相同的。查看这三种经济学期刊,提取50k测试结果,将所有结果转换为分数(尽可能使用报告的系数和标准误差,如果仅报告了,则使用),然后得到以下结果:zp
这有点令人困惑,因为小在右侧,大在左侧。正如作者在摘要中写道的那样,“ p值的分布呈现出骆驼形状,p值高于.25时有丰富的峰”和“ 0.25到.10之间的谷”。他们争辩说,这个山谷表明有些可疑,但这只是间接证据。同样,这可能仅是由于选择性报告所致,当报告大于.25的大p值被认为是缺乏效果的一些证据,但认为0.1和.25之间的p值既不存在也不存在,并且倾向于被省略。(我不确定生物学文献中是否存在这种效果,因为上面的图集中在区间上。)ppp<0.05
错误地放心?
基于以上所有内容,我的结论是,我没有看到任何有力证据证明整个生物学/心理学文献中的值分布都存在 hacking 。有大量的选择性报告,发表偏倚的证据,舍入 -值下降到和其他有趣的四舍五入的影响,但我不同意Head等的结论:下面有没有可疑的凹凸。ppp0.05 0.050.050.05
乌里·西蒙索恩(Uri Simonsohn)辩称这是“错误的保证”。好吧,实际上他是不加批判地引用了这些论文,但随后指出“大多数p值都远小于0.05”。然后他说:“那令人放心,但错误地让人放心”。这就是为什么:
如果我们想知道研究人员是否p-hack他们的结果,我们需要检查与他们的结果相关联的p值,他们可能首先想p-hack。样本必须是无偏见的,仅应包含感兴趣人群的观察结果。
大多数论文中报道的大多数p值与目标策略行为无关。协变量,操作检查,研究交互作用的研究的主要效果等。包括它们在内,我们低估了p-hacking,而我们高估了数据的证据价值。分析所有p值会提出一个不同的问题,一个不太明智的问题。而不是“研究人员会p-hack他们学习的东西吗?”,而是问“研究人员是否p-hack一切吗?”
这是完全合理的。查看所有报告的值太吵了。Uri的曲线论文(Simonsohn等人,2013年)很好地证明了如果人们仔细选择就能看到什么。他们基于一些可疑的关键字选择了20篇心理学论文(即,这些论文的作者报告了控制协变量的测试,没有报告如果不控制协变量会发生什么),然后仅采用来检验主要发现。这是分布的样子(左):ppp ppp
强烈的左偏斜表明强烈的 hacking。p
结论
我要说的是,我们知道,有一定有很多的回事-hacking,大部分是格尔曼描述分岔路径类型; 可能是因为已发布的值不能真正以票面价值获得,应该由读者“折让”相当大的一部分。但是,这种态度似乎产生的影响远不只是简单地将总体分布中的一个颠簸降低到以下,而且这种钝化分析并不能真正发现这种态度。ppp 0.05 p0.05