动力不足的研究是否会增加假阳性的可能性?


23

这里这里之前都曾问过这个问题,但我认为答案不能直接解决这个问题。

动力不足的研究是否会增加假阳性的可能性?一些新闻文章对此作出了断言。对于例如

统计能力低是个坏消息。动力不足的研究更有可能错过真正的效果,并且作为一个整体,它们更有可能包含更高比例的误报-也就是说,即使这些效果不是真实的,它们也具有统计学意义。

据我了解,测试的力量可以通过以下方式提高:

  • 增加样本量
  • 效果更大
  • 提高重要性水平

假设我们不想更改显着性水平,我相信上面的引用是指更改样本大小。但是,我看不出减少样本应该如何增加误报的数量。简而言之,降低研究的功效会增加假阴性的可能性,这会回答以下问题:

P拒绝拒绝 H0|H0 是假的

相反,误报回答了以下问题:

P拒绝 H0|H0 是真的

两者都是不同的问题,因为条件不同。权力与否定否定(相反)相关,但与否定肯定无关。我想念什么吗?


4
不是误报率取决于统计功效,而是“误发现率”:PH0是真的|拒绝H0
Jake Westfall

2
是的,这似乎是对《连线》文章中的陈述的正确解释。
罗伯·史密斯

Answers:


30

您的说法是正确的,因为样本大小会影响功效(即1-II型错误),但不会影响I型错误。一个普遍的误解是,当样本量较小时,这样的p值(正确解释)不太可靠或无效-Friston 2012的非常有趣的文章对此有一个有趣的看法[1]。

话虽这么说,但研究不足的问题是真实的,我的说法在很大程度上是正确的,其措辞有点不精确。

动力不足的研究的基本问题是,尽管假设检验中的假阳性率(I型错误)是固定的,但真正的阳性率(功效)却下降了。因此,在动力不足的研究中,阳性(=显着)结果不太可能是真实阳性。这个想法以错误发现率[2]表示,另请参见[3]。这似乎是引述所指。

关于动力不足的研究经常被提及的另一个问题是,它们导致高估了效应大小。原因是:a)功效较低,您对真实效果的估计将在其真实值附近变得更加可变(随机),并且b)当功效较低时,只有那些效应中最强的才会通过有效过滤器。应该补充一点,尽管这是一个报告问题,可以通过讨论和报告所有结果而不仅仅是重大影响来轻松解决。

最后,动力不足的研究中的一个重要的实际问题是,低功率会增加统计问题(例如,估计量的偏差),以及变戏法和类似的p-hack战术的诱惑。当功率较低时,使用这些“研究者自由度”最为有效,并且THIS毕竟会增加I型错误,例如,参见[4]。

由于所有这些原因,因此,我确实会对动力不足的研究表示怀疑。

[1] Friston,K.(2012)非统计性评论者的十个讽刺规则。NeuroImage,61,1300-1310。

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3]按钮,KS;JPA约阿尼迪斯;Mokrysz,C .;BA Nosek;弗林特,J. Robinson,ESJ和Munafo,MR(2013)电源故障:为什么小样本量会破坏神经科学的可靠性。纳特 神经科学杂志,14,365-376

[4] Simmons,JP;Nelson,LD&Simonsohn,U.(2011)错误正面心理学:数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。Psychol Sci。,22,1359-1366。


谢谢。优秀的参考。为了完整起见,[1]可以发现这里和[3]可用在这里。当您谈论错误发现率时,您确定这是正确的概念吗?基于[3],您可能是说正预测值(PPV),其中功能不足的研究的PPV较低(也就是说,真正的阳性并不像在高能力的研究中那样频繁)。 PPV的补充。
罗伯·史密斯

以我的理解,这些概念是相同的,PPV = 1-FDR。我更喜欢使用FDR,因为我觉得这个词在直觉上更好理解。
Florian Hartig 2015年


2
Tal Yarkoni 在这里指出了有关Friston文章的所有错误。
jona 2015年

1
@jona-我认为Tal Yarkoni在他的博客文章中提出了一些好观点。我想一句话总结就是“低功耗是个问题”,这正是我上面所说的。我仍然觉得弗里斯顿对评论家评论的讽刺很有趣,因为确实发生了评论家“发现样本量太小”而没有涉及计算能力的令人信服的论点。
Florian Hartig 2015年

6

在特定情况下,低功耗可能会增加误报率,具体取决于您的外观。

考虑以下几点:研究人员测试一种治疗方法。如果检测结果不重要,则他们放弃检测并继续进行下一个治疗。如果测试结果很重要,他们将发布该测试。我们还要考虑一下,研究人员将测试一些有效的治疗方法和无效的治疗方法。如果研究人员具有很高的能力(当然是指他们正在测试有效的治疗方法时的情况),那么一旦他们测试了有效的治疗方法,他们就很可能会停下来。另一方面,在低功率的情况下,他们可能会错过真正的治疗效果,而转向其他治疗方法。他们测试的空处理次数越多,发生I型错误的可能性就越大(该研究人员没有考虑多次比较)。在低功率的情况下,预计他们会测试更多的空值处理,

您可能会说:“好吧,这只是一个滥用多重比较的研究员!”。好吧,这也许是对的,但是这也是最近几天完成许多研究的方式。正是由于这些原因,除非有足够大的样本量,以至于研究者无法承受重复多次相同的实验,否则我个人对出版的作品几乎没有信心。


1
谢谢。即使忽略多次比较(没有适当的更正)的情况,我认为您也正在描述此处描述的PPV的另一个实例。我无法粘贴该段落,但其开头是(For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null
罗伯·史密斯

1
是的,这非常接近地描述了我所指的内容。最小的区别是,我说的是“在给定的实验程序中,在每次测试中都只有低功率才能产生真正的效果,这会增加在整个实验程序中使用I型错误的几率”。当然,这与增加每个统计测试中的I型错误率不同。而且,它只是在技术上与PPV不同。但这是媒体声明“低功耗会增加I型错误”的唯一途径(我认为这很有意义)。
悬崖AB

4

低功耗不会影响Type-1错误率,但是会影响属于Type-1错误的已发布结果的比例。

原因是低功耗会减少正确拒绝H0(类型2错误)的机会,但不会减少错误拒绝H0(类型1错误)的机会。

假设有两篇文献...一本以非常低的功率(接近零)进行,另一本以足够的功率进行。在这两种文献中,您都可以假设当H0为假时,您仍会在某些时候得到假阳性(例如,对于alpha = .05,为5%)。假设研究人员的假设并不总是正确的,我们可以假设两种文献都应该有相似数量的Type-1错误,无论是否具有良好的功效。正如其他人所说,这是因为Type-1错误的发生率不受功耗的影响。

但是,在功率较低的文献中,您还会遇到很多Type-2错误。换句话说,低功耗文献应该对H0的拒绝率进行校正,从而使Type-1错误在文献中占更大的比例。在大功率文献中,您应该混合正确和错误拒绝H0。

那么,低功耗会增加Type-1错误吗?不会。但是,这确实很难找到真实的结果,从而使Type-1错误在已发表的发现中占较大比例。


1
谢谢。PPV呢?在Florian Hartig引用的论文中,有人声称给定I型错误,功率越低,PPV越低。如果PPV较低,则意味着真实主张的发现的数量较少,则虚假主张的发现(假阳性)的数量应增加。
罗伯·史密斯

0

除了其他答案外,当样本量较小时,通常无法进行研究。有许多测试只是渐近有效的,对于小n来说过于乐观或保守。

其他测试仅在满足某些条件的情况下才适用于小样本量,但对于大样本量(例如t检验)会变得更加可靠。

在这两种情况下,小样本量和未满足的假设都可能导致I型错误率增加。这两种情况经常发生,我认为对您的问题的真正答案是:不是理论上的,而是实践上的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.