2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。