使用置信区间时,我们是否应该应对多个比较调整?


26

假设我们有一个多重比较的场景,例如成对统计的事后推断,或者像多重回归,我们总共进行了m比较。还要假设,我们希望使用置信区间支持这些倍数的推理。

1.我们是否对配置项应用了多个比较调整?也就是说,正如多重比较强制的重新定义α来无论是家庭明智的错误率(FWER)或假发现率(FDR),确实的含义信心(或信誉1,或不确定性,或预测或推断...选择您的间隔)是否会因多次比较而发生类似的变化?我意识到这里的否定答案将解决我剩下的问题。

2.是否存在从假设检验到区间估计的多个比较调整程序的直接转换?例如,将调整集中于改变CI-level术语中的置信区间:CIθ=(θ^±t(1CI-level)/2σ^θ)

3.我们将如何处理CI的升压或降压控制程序?从假设检验方法到推理的一些家庭式错误率调整是“静态的”,因为对每个单独的推断进行了完全相同的调整。例如,通过更改以下项的拒绝标准来进行Bonferroni调整:

  • 拒绝如果pα2至:
  • 拒绝如果pα2m

但是Holm-Bonferroni的升压调整不是“静态”的,而是通过以下方式进行的:

  • 首先将p最小到最大排序,然后
  • 拒绝如果p1(1α2)1m+1i,(其中,i索引的顺序p-值),直到
  • 我们无法拒绝无效假设,并且自动无法拒绝所有后续的无效假设。

因为CI不会发生拒绝/拒绝失败(更正式的说法,请参见下面的参考文献),这是否意味着逐步过程不会转换(即包括所有FDR方法)?在此我要说明的是,我并不是在问如何将CI转换为假设检验(以下引用的“视觉假设检验”文献的代表提到了这个不重要的问题)。

4. 括号中我在1中提到的其他间隔是什么?


1天哪,我当然希望我不会在这里使用这个词来惹恼那些甜美,甜美的贝叶斯风格。:)


参考文献
Afshartous,D.和Preston,R.(2010)。相依数据的置信区间:将具有统计意义的非重叠等同。计算统计与数据分析,54(10):2296-2305。

卡明,G。(2009)。肉眼推论:读取独立置信区间的重叠。医学统计学,28(2):205-220。

缅因州的佩顿,MH的Greenstone和北卡罗来纳州的Schenker(2003)。重叠置信区间或标准误差区间:就统计学意义而言,它们是什么意思?昆虫科学学报,3(34):1-6。

Tryon,WW和Lewis,C.(2008)。建立统计等价性的推论置信区间方法,用于校正Tryon(2001)的折减系数。心理方法,13(3):272–277。


我现在没有时间研究完整的答案,所以我将在评论中回答。
Harvey Motulsky 2014年

[最后一条评论被删掉。[我现在没有时间研究完整的答案,所以我将在评论中回答。1)是的,在相同的情况下,假设检验的多重比较有意义。2. Bonferroni,Tukey和Dunnet的多重比较可以很容易地适用于确定置信区间,其中置信水平适用于整个家庭。3.据我所知,不可能通过Holm方法确定置信区间。4.我没有头绪!
Harvey Motulsky 2014年

2
pα

Answers:


9

遗憾的是,这是一个很好的话题,没有引起足够的重视。

当讨论多个参数和置信区间时,应在同时推断和选择性推断之间进行区分。参考文献[2] 很好地演示了此事。

1α

这两个概念可以结合使用:说您仅在拒绝了原假设的参数上构造间隔。您显然正在处理选择性推断。您可能想要保证同时覆盖所选参数,或保证覆盖所选参数的边缘。前者将是FWER控制的对应对象,而后者将是FDR控制。

现在,更重要的是:并非所有测试过程都有其相应的间隔。有关FWER程序及其随附的间隔,请参见[3]。遗憾的是,该参考文献已过时。对于BH FDR控制的间隔对应项,请参见[1]和[4]中的应用程序(还包括对此问题的简要回顾)。请注意,这是一个新鲜而活跃的研究领域,因此您可以在不久的将来获得更多的成果。

[1] Benjamini,Y.和D. Yekutieli。“针对选定参数的错误发现率调整后的多重置信区间。”《美国统计协会杂志》 100号,没有。469(2005):71-81。

[2] Cox,DR“关于多种比较方法的注解。” Technometrics 7,否。2(1965):223-24。

[3] Y. Hochberg和AC Tamhane。多个比较程序。美国纽约:John Wiley&Sons,Inc.,1987年。

[4] Rosenblatt,JD和Y. Benjamini。“选择性相关;不是Voodoo。” NeuroImage 103(2014年12月):401-10。


1

永远不会调整多次测试的置信区间。我不是p值的忠实拥护者,因为我认为参数估计比检验永远不完全正确的假设更好地用于统计。但是,我承认假设检验有其价值,例如,在一项随机对照试验中,至少有一个可以渐近论证,如果治疗无效,则原假设为真。但是,正如我在其他地方[1]所说的那样,通常这涉及一个主要结果。但是,按照频率论者的定义,置信区间不包含假设,因此不需要为其他可能不相关的比较进行调整。假设我正在测试与特定基因相关的表型,例如身高和血压。一世' d想知道有和没有基因的人之间的身高差异有多大,我对它的估计程度如何。我没有发现我也测量过血压这一事实与它无关。可能重要的是,如果这两个是我们测试的数百个中唯一重要的两个,那么。然后,可能偶然之间的差异会比预期的反事实实验大,我们只测量了身高和血压,但进行了数百次实验。但是,在这种情况下,将无法进行简单的调整,最好给出未调整的估算值,但要弄清如何获得这些比较。我们还发表了一些有关重叠置信区间的结果。[2] 看不到我也测量了血压这一事实与它有关。可能重要的是,如果这两个是我们测试的数百个中唯一重要的两个,那么。然后,可能偶然之间的差异会比预期的反事实实验大,我们只测量了身高和血压,却做了数百次实验。但是,在这种情况下,无法进行简单的调整,最好给出未调整的估算值,但要弄清如何获得这些比较。我们还发表了一些有关重叠置信区间的结果。[2] 看不到我也测量了血压这一事实与它有关。可能重要的是,如果这两个是我们测试的数百个中唯一重要的两个,那么。然后,可能偶然之间的差异会比预期的反事实实验大,我们只测量了身高和血压,却做了数百次实验。但是,在这种情况下,无法进行简单的调整,最好给出未调整的估算值,但要弄清如何获得这些比较。我们还发表了一些有关重叠置信区间的结果。[2] 大于预期的反事实实验,在该实验中我们仅测量身高和血压,但进行了数百次实验。但是,在这种情况下,无法进行简单的调整,最好给出未调整的估算值,但要弄清如何获得这些比较。我们还发表了一些有关重叠置信区间的结果。[2] 大于预期的反事实实验,在该实验中我们仅测量身高和血压,但进行了数百次实验。但是,在这种情况下,无法进行简单的调整,最好给出未调整的估算值,但要弄清如何获得这些比较。我们还发表了一些有关重叠置信区间的结果。[2]

[1] Campbell MJ和Swinscow TDV(2009)统计在第一广场。牛津大学第11版;BMJ书籍Blackwell Publishing

[2] Julious SA,Campbell MJ,Walters SJ(2007)根据当前试验的结果预测未来的方法将在哪里。当代临床试验,第28期,第352-357页。


1
谢谢你的发人深省的回答,迈克。Benjamini,Hochberg和Yekutieli似乎认为比较不是“无关紧要”,而是实际上是同时进行的:“当要基于所有参数的值来采取措施时,还需要同时进行覆盖。因此,比较了两者之间的主要终点临床试验中的治疗可能涉及对所有这些方法的检查,无论它们是否有显着不同。这是一个明显的情况,需要同时进行覆盖。” (撇开仅对某些配置项进行选择性展示的问题。)
Alexis,

顺便说一句,鉴于“我不是p值的忠实拥护者,因为我认为估计参数比对检验永远都不完全正确的假设更好地利用统计数据”,您可能会喜欢为什么偏见假设检验偏向于拒绝 p值有足够大样本的零假设?。干杯。
亚历克西斯

1
虽然我同意您的观点,即参数的置信区间在大多数形式的推理中都优于p值,但我不确定这是否意味着无需对置信区间进行多次比较进行校正。大多数置信区间是通过使用alpha来定义的,以指定覆盖范围。甚至脱离严格的假设检验框架,在我看来(天真地,无需费心进行模拟检查)在进行多次比较时,以教条式坚持名义覆盖率(例如95%,所以alpha = 0.05)可能会产生误导。参与。
瑞安·西蒙斯

2
迈克·坎贝尔说:“按照频率论者的定义,置信区间不涉及假设,因此不需要为其他可能不相关的比较进行调整。” 这是一个奇怪的说法。尽管配置项本身可能不能反映“假设检验”,但它们确实反映了具有一定错误率(例如.05)的统计检验,并且随着检验次数的增加,错误率会被夸大-通过完全相同的基本数学方法适用于原假设检验的原理。不能只关注CI而不是p值来逃避多重比较的问题。
Bonferroni
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.