是什么导致发布的p值在p <.05处不连续?


27

在最近的一篇论文中,Masicampo和Lalande(ML)收集了许多不同研究中发表的大量p值。他们观察到p值直方图在标准临界值5%处出现了奇怪的跳跃。

Wasserman教授的博客上有一个关于ML现象的精彩讨论:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

在他的博客上,您将找到直方图:

已发布p值的直方图

由于5%水平是惯例而不是自然法则,是什么导致已发布p值的经验分布的这种行为?

选择偏差,正好在规范临界水平之上的p值的系统“调整”,还是什么?


11
至少有2种解释:1)“文件抽屉问题”-p <.05的研究得到发表,而上述研究没有发表,因此它实际上是两种分布的混合2)人们正在操纵事物,可能是潜意识的,得到p <.05
彼得·弗洛姆-恢复莫妮卡

3
嗨@Zen。是的,正是这种事情。有做这样的事情的强烈趋势。如果我们的理论得到证实,那么与没有发现统计问题相比,我们去寻找统计问题的可能性就较小。这似乎是我们本性的一部分,但这是要提防的事情。
彼得·弗洛姆

@Zen您可能对安德鲁·盖尔曼(Andrew Gelman)博客上的这篇帖子感兴趣,该博客提到了一些研究,发现有关出版偏向的研究中没有出版偏见...!andrewgelman.com/2012/04/…–
smillig

1
有趣的是,从明确拒绝基于p值的论文的期刊中对论文的p值进行反算,例如流行病学曾经(在某种意义上仍然如此)。我想知道它是否改变了,是否该期刊已经过时又说它不在乎,或者审阅者/作者是否仍在基于置信区间进行心理即席测试。
Fomite

4
如Larry的博客所述,这是已发布的p值的集合,而不是从p值世界中随机抽取的p值样本。因此,即使在拉里(Larry)的帖子中建模的混合物的一部分,也没有理由在图片中出现均匀的分布。
西安

Answers:


14

(1)正如@PeterFlom所提到的,一种解释可能与“文件抽屉”问题有关。(2)@Zen还提到了作者操纵数据或模型(例如,数据挖掘)的情况。(3)但是,我们不能纯粹基于随机检验假设。也就是说,假设不是偶然选择的,而是我们拥有(或多或少有力的)理论假设。

您可能还对Gerber和Malhotra的作品感兴趣,他们最近使用所谓的“卡尺测试”在该领域进行了研究:

您可能还对Andreas Diekmann编辑的此特刊感兴趣:


10

迄今为止缺少的一个论点是数据分析的灵活性,即研究人员的自由度。在每个分析中,都需要做出许多决策,在哪里设置离群标准,如何转换数据以及...

Simmons,Nelson和Simonsohn最近在一篇有影响力的文章中提到了这一点:

西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。假阳性心理学:数据收集和分析的灵活性未公开,因此可以提出任何有意义的内容。 心理科学,22(11),1359 – 1366。doi:10.1177 / 0956797611417632

(请注意,这与最近在社会心理学中发现的一些数据欺诈案件的Simonsohn负责,例如面试博客文章


8

我认为这是已经说过的一切的结合。这是非常有趣的数据,我以前从未考虑过像这样的p值分布。如果原假设为真,则p值将是统一的。但是当然,由于已发布的结果,由于许多原因,我们不会看到一致性。

  1. 我们之所以进行这项研究,是因为我们希望原假设为假。因此,我们应该经常取得显著成果。

  2. 如果原假设只有一半的时间是假的,我们将不会得到p值的均匀分布。

  3. 文件抽屉问题:如前所述,如果p值不显着(例如低于0.05),我们将害怕提交论文。

  4. 尽管我们选择提交论文,但出版商仍会因为无意义的结果而拒绝该论文。

  5. 当结果接近临界点时,我们将做一些事情(也许不是出于恶意)。(a)当p值为0.053时四舍五入为0.05,(b)找到我们认为可能是异常值的观察值,将它们移开后p值将降至0.05以下。

我希望本文以合理的理解的方式总结了一切。

我认为有意思的是,我们看到p值介于0.05和0.1之间。如果发布规则拒绝p值大于0.05的任何内容,则右尾将截断为0.05。它实际上是在0.10截止吗?如果是这样,也许某些作者和某些期刊将接受0.10的显着性水平,但没有更高的水平。

由于许多论文都包含多个p值(是否已针对多重性进行了调整),并且该论文被接受是因为关键测试很重要,所以我们可能会看到列表中包含不重要的p值。这就提出了一个问题:“直方图中是否包含了所有报告的p值?”

另一个观察结果是,随着p值远低于0.05,发表论文的频率呈显着上升趋势。也许这表明作者过度解释了p值,认为p <0.0001更值得发表。我认为作者忽略或没有意识到p值不仅取决于样本量,还取决于效果量的大小。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.