为什么多重比较是一个问题?


44

我发现很难理解多重比较到底是什么问题。举个简单的比喻,可以说一个会做出很多决定的人会犯很多错误。因此,应采用非常保守的预防措施,例如Bonferroni校正,以使此人犯任何错误的可能性尽可能低。

但是,为什么我们要关心一个人在他/她所做的所有决定中是否犯了任何错误,而不是错误的决定所占的百分比

让我尝试解释一下让我困惑的另一个类比。假设有两名法官,一名是60岁,另一名是20岁。然后Bonferroni更正告诉20岁的人在决定处决时要尽可能保守,因为他将担任法官工作很多年,将做出更多决定,因此他必须谨慎。但是,一个60岁的老人可能很快就会退休,做出的决定更少,因此与另一个老人相比,他可能会更加粗心。但实际上,无论他们做出的决定总数是多少,两位法官都应同样谨慎或保守。我认为这种类比或多或少地转化为应用Bonferroni校正的实际问题,我发现这与直觉相反。


8
并不是您问题的真正答案,但是您是否遇到过错误发现率(FDR)?纳鲁姆(Narum)的“超越Bonferroni”:springerlink.com/content/c5047h0084528056
apeescape 2010年

Answers:


40

您已经说了一些与Bonferroni更正相反的经典说法。我是否应该根据我将要进行的每项测试来调整我的alpha标准?这种荒唐的含意是为什么有些人根本不相信Bonferroni风格的修正。有时候,一个人在其职业生涯中要处理的数据不是问题。对于对每个新证据做出一个或很少决策的法官来说,这是一个非常有效的论点。但是拥有20名被告的法官又是谁将他们的判决基于一大批数据(例如战争法庭)呢?

您将忽略论点中“罐头”问题。通常,科学家正在寻找某种东西-p值小于alpha。试图找到一个人的一切企图都是可以的。如果一个人拍摄足够的照片,它最终会找到一个。因此,他们应该为此受到惩罚。

协调这两个论点的方式是要认识到它们都是正确的。最简单的解决方案是考虑测试单个数据集内的差异,这是解决罐问题的一种方法,但是将校正范围扩展到外面会很滑。

在许多领域,这是一个真正困难的问题,特别是在FMRI中,正在比较成千上万个数据点,并且必然有一些偶然出现。考虑到该领域在历史上一直是非常探索性的,因此必须纠正某些事实,因为大脑的数百个区域纯粹是偶然地看起来很重要。因此,在该领域中已经开发了许多标准调整方法。

另一方面,在某些领域中,人们最多只能查看变量的3到5级,并且如果出现显着的方差分析,则总是只测试每种组合。已知这有一些问题(类型1错误),但并不是特别可怕。

这取决于您的观点。FMRI研究人员认识到对标准转换的真正需求。看小方差分析的人可能会觉得测试中显然有东西。多重比较的正确保守观点是总是对它们做一些事情,但只能基于单个数据集。任何新数据都会重置条件...除非您是贝叶斯人...


谢谢,这非常有帮助。当我有足够的代表时,我会投票赞成。
AgCl 2010年

FMRI研究人员可能还会使用错误发现率(FDR)标准,因为它可以保证在长时间测试中出现alpha * 100%的误报。
布兰登·谢尔曼

@John,您能回答这个问题吗stats.stackexchange.com/questions/431011/… 如果您能帮助我,我会很高兴。
Sabbir Ahmed

26

受人尊敬的统计学家在多次比较中采取了多种立场。这是一个微妙的主题。如果有人认为这很简单,我想知道他们对此有多少想法。

这是安德鲁·盖尔曼 Andrew Gelman)关于多重测试的有趣的贝叶斯观点:为什么我们通常不用担心多重比较


2
我找到这个文件有意思的是,角度是贝叶斯,但表示愿意代替修正多重比较分层建模方法并不会要求您必须贝叶斯。
conjugateprior

1
我只是在看那篇文章;我认为也许需要更多引用。我讨厌冲洗效果,因为先进的多重比较技术并不为人所知,也不容易做到。相反,更高级的方法非常简单。我想知道是否有严重的问题需要考虑。
russellpierce


13

与之前的评论相关,fMRI研究人员应该记住的是,临床上重要的结果很重要,而不是大脑fMRI上单个像素的密度偏移。如果没有导致临床改善/损害,那就没关系。这是减少对多个比较的担忧的一种方法。

也可以看看:

  1. 鲍尔(1991)。临床试验中的多次测试。Stat Med,10(6),871-89; 讨论889-90。
  2. 马萨诸塞州的Proschan和马萨诸塞州的瓦克拉维(2000)。临床试验中多重调整的实用指南。对照临床试验,21(6),527-39。
  3. Rothman,KJ(1990)。多个比较无需调整。流行病学(Cambridge,Mass。),1(1),43-6。
  4. Perneger,电视(1998)。bonferroni调整有什么问题。BMJ(Clinical Research Ed。),316(7139),1236-8。


我敢肯定,他们有很多乐趣,向死去的鲑鱼询问它的情绪!!!
nico 2010年

该帖子还提供了与RCT相关的有用参考:j.mp/bAgr1B
chl 2010年

10

修正想法:当您正面观察独立随机变量时,我将采取这种情况 ,以便对于从。我假设您想知道哪一个平均值非零,您想正式进行测试:n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

阈值的定义:您需要做出决定,并且可能有不同的目标。对于给定的测试您肯定会选择阈值,如果,则决定不接受。niτiH0i|Xi|>τi

不同的选项:您必须选择阈值,为此,您有两个选择τi

  1. 为每个人选择相同的阈值

  2. 为每个人选择 不同的阈值(最常见的是数据阈值,请参见下文)。

不同的目标:这些选项可以针对不同的目标进行驱动,例如

  • 控制一个或多个错误拒绝的概率。H0ii
  • 控制错误警报率(或错误发现率)的期望

    最终的目标是什么,使用数据阈值是一个好主意。

我对您的问题的回答:您的直觉与选择数据阈值的主要启发式方法有关。它是以下内容(在Holm程序的起源上比Bonferoni更强大):

假设您已经决定了最低的并决定接受 所有的。然后,您只需要进行比较,就不会冒任何错误地拒绝风险!由于您没有使用预算,因此对于剩余测试,您可能会承担更多风险,并选择更大的阈值。| X i | H 0 i n p H 0 ip|Xi|H0inpH0i

以您的法官为例:我假设(我想您应该做同样的事情)两位法官一生中有相同的错误指控预算。如果这位60岁的法官过去没有指控任何人,那么他可能会显得比较保守!但是,如果他已经提出了很多指控,他将比最年轻的法官更加保守,甚至更多。


我认为您的假设中有错别字-两者似乎都是一样的……
walkytalky 2010年

2

说明性(有趣)文章;http://www.jsur.org/ar/jsur_ben102010.pdf),涉及一些涉及许多变量(例如fmri)的实践研究中对多次测试校正的需求。简短的引用表明了大部分信息:

“ [...]我们以死后的大西洋鲑鱼为对象,完成了功能磁共振成像扫描。鲑鱼被展示出与社会观点相同的任务,后来又被应用于一组人类受试者。”

根据我的经验,这是鼓励用户使用多个测试更正的绝佳论据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.