非正式/视觉“多次比较”是否需要多次比较校正?


9

关于何时需要进行多重比较校正,我有一个哲学问题。

我正在测量连续的时变信号(在离散时间点)。有时会发生单独的事件,我想确定这些事件是否对测得的信号有重大影响。

因此,我可以获取事件后的均值信号,通常我可以在某个峰值处看到一些效果。如果我选择了那个高峰的时间,并说出t检验来确定它是否显着,而不是什么时候不发生,我是否需要进行多次比较校正?

尽管我只进行过一次t检验(计算出1个值),但是在我最初的目视检查中,我从绘制的15个不同的后期延迟时间点中选择了具有最大潜在影响的检验。那么我是否需要对从未执行过的15个测试进行多次比较校正?

如果我不使用视觉检查,而只是在每次事件滞后都进行了测试并选择了最高的一次,那么我肯定需要更正。我是否需要根据测试本身以外的其他标准(例如,视觉选择,最高均值等)做出“最佳延迟”选择,这有点困惑

Answers:


11

从技术上讲,当您对要在哪里进行测试进行视觉预选时,您应该已经对此进行了纠正:您的眼睛和大脑已经绕开了数据中的一些不确定性,如果您只是在那时进行测试,就不会考虑这些不确定性。

想象一下,您的“峰值”确实是一个平稳的峰,然后您手动选择“峰值”差异,然后对其进行测试,结果几乎没有什么意义。如果要向左或向右稍微多一点运行测试,结果可能会改变。这样,您必须考虑预选的过程:您并不确定所声明的内容!您正在使用数据进行选择,因此您实际上在两次使用相同的信息。

当然,在实践中,很难考虑到类似手工挑选的过程,但这并不意味着您就不应该这样做(或至少要花一点点时间来陈述/陈述得出的置信区间/测试结果)。

结论如果您进行多个比较,则无论如何选择这些比较,都应始终校正多个比较。如果查看数据之前未选择它们,则还应该对此进行更正。

注意:校正手动预选的一种替代方法(例如,在实际上不可能的情况下)可能是陈述您的结果,以便它们显然包含对手动选择的引用。我猜这不是“可重复的研究”。


1
但是,始终进行更正会增加II型错误率。如果校正前您拥有所有重要结果,则校正后您可能会丢失所有结果,这不能说明获得所有重要结果的可能性很小。这可能取决于上下文中I型或II型错误的代价。
EtienneLow-Décarie'5

如果我是第一个回应的话,尼克给出了我想给出的答案。但是,在初始设置中,您(mkpitas)表示,如果您实际执行了15个测试,则不必进行多重校正。我不明白你为什么这么说。我认为在这种情况下,多重校正的需求变得更加明显。@etienne您的观点适用于FWER校正,这在控制I型错误方面非常严格。如果使用FDR,您将不会牺牲那么多功率。
Michael R. Chernick

8

很久以前,在我的第一个统计学课中,我正在阅读一篇课文(我认为这是科恩的书中的旧版),其中说:“这是一个关于合理的人可以有所不同的问题”。

对我来说,尚不清楚任何人是否需要校正多个比较,如果需要,也应该校正哪个时间段或一组比较。每篇文章?每次回归还是方差分析?他们在某个主题上发布的所有内容?那其他人发表什么呢?

在第一行中,这是哲学的。


4
您是对的,有多少个比较正在进行的问题是对的,但我认为这并不代表您的结论。合理的人可能会有所不同,因为他们对可能的结果具有不同的目标和不同的评估(损失函数)。 如果您要校正多个比较,这是因为它会导致更好的预期损失。因此,这是一个非常实际的问题,而不仅仅是“哲学”,并且有一些理性的方法可以解决,而理性的人也可以对此达成共识。
ub

2
@whuber在某些情况下您肯定是正确的。有时会有一个合理的损失函数,尽管通常很难明确说明一个函数。但是在其他时候,例如在探索性工作中,我很难看到任何损失函数是如何可能的。当然,整个损失函数的想法使我们摆脱了p = .05那样的可怕特征,而通常的假设是power = .8或.9足够好,而(我认为)更明智的想法是我们基于更多实质性依据来建立这些依据。
彼得·弗洛姆

1
彼得,感谢您澄清答复的范围和精神。
ub

4
当人们说多重性测试无关紧要时,我很生气。我看到这种态度在医学研究中经常表达出来。您可以指出许多得出错误结论的论文,因为忽略了多重性。至关重要的是,不要发表医学结论错误的论文,因为这会影响患者的治疗方式和生命危险。多样性会导致出版偏见(因为对某问题进行了多次研究,只有发表了具有重大成果的研究才被发表),这在荟萃分析中是一个严重问题,
Michael R. Chernick,2012年

1
@MichaelChernick,我同意-当人们忽略多个测试更正时,这将是一个很大的问题。但是,我认为Peter提出了一个观点-多重测试的范围应该是什么?所有测试都在单篇论文中完成?所有测试均使用单个数据集完成?自时间开始以来已完成所有测试?似乎没有一个明确正确的答案。
2012年

4

如果您要对现实做出一次性决定,并想控制错误拒绝无效假设的比率,那么您将使用无效假设重要性检验(NHST),并且希望对多个比较使用校正。但是,正如彼得·弗洛姆(Peter Flom)在回答中指出的那样,目前尚不清楚如何定义应用校正的一组比较。最简单的选择是应用于给定数据集的一组比较,这是最常见的方法。

但是,可以说科学最好被认为是一种累积系统,在这种系统中,一次性决策是不必要的,而实际上只能降低证据积累的效率(将获得的证据减少到单个信息中)。因此,如果遵循正确的科学方法进行统计分析,而避免使用NHST等似然比之类的工具(也可能是贝叶斯方法),那么多重比较的“问题”就会消失。


1

根据您的问题,更正的一种可能替代方法是测试p值总和的显着性。然后,您甚至可以通过添加高p值来惩罚自己未完成的测试。

可以使用Fisher方法的扩展名(不需要独立性)(需要测试的独立性)。

例如。柯斯特法


当个别研究仅提供p值或无法合并数据但每个研究具有计算出的p值时,这些就是在荟萃分析中使用的程序示例。Fisher的组合方法和逆法线也是在自适应设计中构造停止规则的方法。
Michael R. Chernick

1

要记住的一件事很重要,那就是多重测试修正假设独立的测试。如果您分析的数据不是独立的,那么事情将变得比简单地校正所执行的测试数复杂得多,您必须考虑所分析数据之间的相关性,否则您的校正可能会过于保守,您将II型错误率很高。我发现交叉验证,置换测试或引导程序(如果使用得当)是处理多个比较的有效方法。其他人提到使用FDR,但是如果您的数据中存在很多非独立性,这会给出不正确的结果,因为它假定p值在null下所有测试中都是统一的。


2
欢迎来到该网站,Matt。关于您的开篇句子:要记住的一件事很重要,那就是多重测试更正假设了独立的测试。请注意,对于某些多次测试更正程序,这是正确的,但肯定不是全部。例如,最简单的(Bonferroni)没有独立性假设,并且如果测试实际上是独立的,则的确效率很低!:-)另外,在连续分布设置中,单个分布的(边际)分布p值在null下将是统一的;您可以考虑编辑以澄清您的言论。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.