与错误发现率和多重测试相混淆(在Colquhoun上,2014年)


19

我读过David Colquhoun的这篇出色论文:对错误发现率和对p值的误解的调查(2014年)。从本质上讲,他解释了为什么即使我们将I型错误控制在,错误发现率(FDR)仍可以高达。30%α=0.05

但是,对于在多次测试中应用FDR控制会发生什么,我仍然感到困惑。

说,我已经对许多变量中的每一个进行了测试,并使用Benjamini-Hochberg过程计算了。我得到一个对有意义的变量。我问这个发现是什么FDR?qq=0.049

我可以安全地假设,从长远来看,如果我定期进行此类分析,则FDR不是,而是低于,因为我使用了Benjamini-Hochberg?这感觉是错误的,我想说值对应于Colquhoun论文中的值,并且他的推理也适用于此,因此使用阈值可能会“ 冒充自己”(如在的案件中,Colquhoun表示。但是,我试图更正式地解释它,但失败了。30%5%qpq0.0530%


2
嘿,@ January,我想知道为什么您会提供这么大的赏金(250),然后再也不会回来奖励和/或检查答案!一切顺利。
变形虫说恢复莫妮卡2015年

3
两份手稿像一吨砖一样落在我身上,我完全忘记了。
2015

Answers:


15

碰巧的是,恰好在几周前我读了同一篇论文。Colquhoun在提出问题时在第4节中提到了多个比较(包括Benjamini-Hochberg),但是我发现他没有足够清楚地说明问题-因此看到您的困惑我并不感到惊讶。

要意识到的重要一点是,科尔昆在谈论情况时没有进行任何多个比较调整。可以理解Colquhoun的论文采用的是读者的观点:他本质上是在问他阅读科学文献时会期望达到什么错误发现率(FDR),这意味着当没有进行多次比较调整时所期望的FDR是多少。在一项研究(例如,一篇论文)中进行多个统计检验时,可以考虑多次比较。但是没有人会为跨论文的多次比较做出调整。

如果您实际控制FDR(例如通过遵循Benjamini-Hochberg(BH)程序),则将对其进行控制。问题是在每个研究中单独运行BH程序并不能保证整体FDR控制。

我可以安全地假设,从长远来看,如果我定期进行此类分析,则FDR不是而是低于5 ,因为我使用了Benjamini-Hochberg?30%5%

否。如果您在每篇论文中都使用BH程序,但在每篇论文中都独立使用BH程序,则可以将BH调整后的值本质上解释为正常的p值,而Colquhoun所说的仍然适用。pp


一般说明

科尔奎恩有关预期FDR的问题的答案很难给出,因为它取决于各种假设。如果例如所有零假设都成立,那么FDR将为(即所有“重大”发现将是统计波动)。如果实际上所有的空值都是假的,那么FDR将为零。因此,FDR取决于真实空值的比例,这是为了估计FDR而在外部进行估计或猜测的内容。科尔昆(Colquhoun)提出了一些赞成30 这个数字的论点,但是这个估计对这些假设高度敏感。10030

我认为该论文大部分是合理的,但我不喜欢它使某些主张听起来过于大胆。例如,摘要的第一句话是:

p=0.0530%

这个措词过于强烈,实际上可能会引起误解。


当然,我只是很快浏览了这篇论文,但在我看来,他实质上只是在重申一个众所周知的观念,即容易在大样本量中发现虚假效应(例如图1)。这并不是说它没有意义,而是我认为它应该具有与作者提供的不同(且不太大胆地陈述)的解释。
瑞安·西蒙斯

1
我不确定@RyanSimmons为什么说我“本质上只是在重申众所周知的观念,即容易在大样本量中发现虚假效应”。这与大样本量无关!我真的很欢迎解释他为什么认为该论文应该具有“一种不同的(并且不那么大胆地​​陈述)的解释”。
David Colquhoun 2015年

“但是没有人会为跨论文的多次比较做出调整。这也几乎是不可能的。” 我认为错误发现率调整相对于家庭错误率调整的优点之一是,尽管后者需要定义家庭,但前者在任意数量的比较中进行扩展
亚历克西斯2015年

pαp

好吧,您描述的当然不是多重比较过程。但是,对5个测试执行基于FDR的调整方法,然后在10 个测试中再增加 20个,然后再次执行相同的方法,可以保留FDR下的拒绝概率,但是这些拒绝概率在FWER下会发生变化。Dunn的Bonferroni调整提供了一个非常生动的例子。
亚历克西斯2015年

12

Benjamini&Hochberg以与我相同的方式将误发现率定义为阳性测试中属于假阳性的部分。因此,如果将其过程用于多个比较,则可以正确控制FDR。但是,值得注意的是,BH方法有很多变体。本杰米尼(Benjamini)在伯克利(Berkeley)举办的研讨会在YouTube上进行,非常值得一看:

我不确定@amoeba为什么说“这个措词太过强烈,实际上可能会引起误解”。我想知道他/她为什么这么认为。最有说服力的论据来自模拟的t检验(第6节)。这模仿了几乎每个人在实践中所做的事情,它表明,如果您观察到P接近0.047,并声称已经发现,那么至少有26%的时间您会错。有什么问题吗?

当然,我不应该将此描述为最低要求。如果您假设有50%的机会产生真正的效果,这就是您得到的。当然,如果您假设大多数假设事先都是正确的,那么FDR可能会低于26%,但是您能否想象这种欢笑会迎接您根据假设进行发现的说法您已经90%事先确定您的结论是正确的。假定不是任何合理的先验概率大于0.5的合理依据,则最低FDR为26%。

鉴于直觉通常不会在测试时站起来,因此很可能只有10%的机会可以接受任何特定的假设,而在那种情况下,FDR将会是灾难性的76%。

的确,所有这一切都取决于零假设(即所谓的零点)的零假设。其他选择可以得出不同的结果。但是零点是几乎每个人在现实生活中使用的东西(尽管人们可能并不知道这一点)。此外,在我看来,零点似乎是完全合适的东西。有时有人反对,真正的差异永远不会完全为零。我不同意。我们想告诉我们的结果是否不同于两组都接受相同治疗的情况,因此真正的差异恰好是零。如果我们确定输出数据与该视图不兼容,则我们继续估计效果大小。在那一点上,我们将单独评估一下效果是否真实,但是否足够大到在实践中很重要。Deborah Mayo的博客


@amoeba感谢您的回复。

Mayo博客上的讨论所显示的大部分内容是Mayo与我不同意,尽管至少在我看来她并没有阐明原因。斯蒂芬·森(Stephen Senn)正确指出,如果您假设其他先验分布可以得到不同的答案。在我看来,这仅对主观贝叶斯主义者有意义。

这与每天的练习总是无关紧要的一点毫无关系。正如我所解释的,在我看来,这是一件非常明智的事情。

许多专业统计学家得出的结论与我的结论大致相同。尝试Sellke&Berger和Valen Johnson(本文引用)。关于我的主张,没有什么有争议的(或非常新颖的)。

关于另一点,关于0.5的事前假设,在我看来根本不是一个假设。正如我在上面解释的那样,任何大于0.5的毛在实践中都是不可接受的。低于0.5的任何值都会使错误发现率更高(例如,如果先前为0.1,则为76%)。因此,如果在单个实验中观察到P = 0.047,则可以预期的最小错误发现率是26%,这是完全合理的。


我一直在考虑这个问题。我对FDR的定义与本杰米尼(Benjamini)的定义相同-积极测试中有误的部分。但这适用于一个完全不同的问题,即单个测试的解释。事后看来,如果我选择一个不同的术语可能会更好。

在单个测试的情况下,B&H保持P值不变,因此就我使用该术语而言,它不会说出任何关于错误发现率的信息。


es当然是正确的。Benjamini&Hochberg和其他从事多个比较工作的人员仅旨在纠正1型错误率。因此,它们最终得到一个“正确的” P值。与其他任何P值一样,它也会遇到相同的问题。在我的最新论文中,为了避免这种误解,我将名称从FDR更改为误报风险(FPR)。

我们还编写了一个Web应用程序来执行一些计算(在注意到很少有人下载我们提供的R脚本之后)。它位于https://davidcolquhoun.shinyapps.io/3-calcs-final/,欢迎对此提出所有意见(请先阅读“注释”选项卡)。

PS Web计算器现在在http://fpr-calc.ucl.ac.uk/上具有一个新的(永久的,希望如此)/ Shiny.io易于使用,但如果有人实际使用该应用程序,则非常昂贵:-(


现在,我的第二篇论文将发表在皇家学会开放科学杂志上,现在我回到了讨论。它在https://www.biorxiv.org/content/early/2017/08/07/144337

我意识到我在第一篇论文中犯的最大错误是使用了术语“错误发现率(FDR)”。在新论文中,我更明确地指出,我没有对多重比较问题说什么。我只处理如何解释在单个无偏测试中观察到的P值的问题。

在最新版本中,我将结果表示为误报风险(FPR)而不是FDR的可能性,以期减少混乱。我还主张采用反向贝叶斯方法-指定确保FPR为5%所需的先验概率。如果观察到P = 0.05,则为0.87。换句话说,您必须几乎(87%)确信在进行实验前FRP达到5%(这是大多数人仍然误认为p = 0.05的意思)才有真实效果。


亲爱的大卫,欢迎来到CrossValidated,并感谢您的加入!似乎我们对@January最初的问题表示同意:FDR只能由整个BH程序控制;如果在每篇论文中分别应用BH,则您的论点仍然适用。如果是这样,这就解决了原始问题。关于我对您的“过于强烈”的表述的评论:在阅读Mayo博客上的147条评论后,我犹豫要开始另一个讨论。如我所写,我大部分都同意你的论文,而我的反对只是关于某些表述。[续]
变形虫说莫妮卡

1
[...]摘要中的第一句话完全出于您在此处列出的原因而“太强”:例如,它假定点为空,并且假定为0.5优先,但听起来好像它不假定任何东西(但我了解您试图挑衅)。Mayo博客上的大量讨论表明,许多人不同意这些假设对实际的科学实践是合理的。我也有自己的反对意见,但我同意您的看法,即这些假设可能准确地描述了某些科学领域。如果是这样,这些领域确实有很大的问题,是的。
变形虫说恢复莫妮卡

2

混乱的很大一部分是,尽管他在这里发表了相反的评论,但科尔昆对FDR的定义与本杰米尼·霍格伯格不同。不幸的是,科尔金霍恩(Colquhoun)试图创造一个术语而没有先检查一下,以确保该术语尚未具有公认的,不同的定义。更糟的是,Colquhoun正是以经常误解传统FDR的方式来定义FDR。

在他的回答中,Colquhoun将FDR定义为“假阳性测试的一部分”。这类似于本杰米尼·霍格伯格(Benjamini-Hochberg)定义的FDP(错误发现比例,不要与错误发现率相混淆)。Benjamini-Hochberg将FDR定义为FDP的期望值,并有一个特殊规定,即在没有正向测试的情况下FDP被视为0(当所有null为真时,碰巧使FDR等于FWER,并且避免由于除以零而导致无法定义的值)。

为避免造成混淆,我建议不要担心Colquhoun论文中的细节,而应牢记大头点(无数其他人也提到过),即alpha水平并不直接对应于重要测试的比例。是I型错误(无论我们是在谈论一项研究还是多项研究中的重要测试)。该比例不仅取决于alpha,而且取决于功效以及所检验的真实零假设的比例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.