自从黎明以来,为什么不对所有实验进行多重假设校正?


24

我们知道,为了控制错误发现率,我们必须对基于单个数据集的实验应用类似于Benjamini Hochberg的校正来进行多个假设检验,否则所有给出阳性结果的实验​​都可能是错误的。

但是,为什么自开始以来我们不对所有实验都应用相同的原理,而不管数据来自何处?

毕竟,现在已知超过一半的被发表为“重要”的科学成果是虚假且不可复制的,没有理由不能如此轻易地做到100%。由于科学家只倾向于发表阳性结果,因此我们不知道阴性结果的数量,因此我们也不知道我们发表的内容是否只是假阳性-在零假设下纯正的随机机会产生的阳性结果。同时,没什么可说的是,多个假设检验校正的数学运算仅应适用于同一数据集的结果,而不适用于随时间推移获得的所有实验数据的结果。

似乎整个科学已经成为基于错误或虚假假设的一项大型捕鱼活动,那么我们如何才能对此进行控制?

如果我们曾经发布的所有结果都是独立的结果而没有对迄今为止进行的所有实验的多个假设检验进行任何校正,那么我们如何控制错误发现率呢?

是否可以进行此类纠正的情况下控制错误发现率?


2
您自己的问题meta.stats.stackexchange.com/questions/3049/…适用。这将几个有争议的(在某些情况下被夸大了)陈述与几个大问题捆绑在一起。我认为这与已经给您的建议的共识背道而驰。
尼克·考克斯

3
抱歉,我不知道您指的是什么答复:我在这里看不到任何参考。我没有投票决定关闭,也没有(自然)我没有任何欲望或力量阻止人们回答。但是,例如,“从时间的曙光开始”就是毫无意义的夸张的一个小例子,您的帖子中还有其他几篇。以我自己的观点来看,挑衅本身并不能帮助您解决潜在的问题。读者必须将样式从实质中剥离。
尼克·考克斯

3
感谢您的邀请,但生活很短暂。我将对元线程的交叉引用作为我的主要观点。我已经对风格和内容发表了自己的看法,在这里可以立足或立足于它的优点。
尼克·考克斯

9
如果我在做科学,那么我不太在乎您的错误发现。确实,就提出特定的科学主张而言,我可能不太在乎所做的其他错误发现。如果我不从事科学工作,那么我甚至可能不在乎我在此特定分析中还做出了哪些其他错误发现-因为如果我根据两种错误类型的相对成本来选择我的错误类型,则我将已经选择了两者之间的权衡,完全不应该针对多个比较进行校正。
Glen_b-恢复莫妮卡

2
幸运的是,其他人以坚定和明确的态度提出了与我相似的观点。另外,我建议不要将科学(无论具有什么持久价值)与文学相混淆。文献令人失望的方式有很多:模糊性,琐碎性,逻辑错误等。摘要中,所有人都对所有已发布的假阳性试验的思想感到不安,但必须相信并采取行动以产生持久的影响。(如果是药物试验,那可能是很大的事情。)因此,有很多事情需要担心,但我认为科学不会注定失败。
Nick Cox

Answers:


20

这显然在实践中绝对是一场噩梦,但可以做到:我们任命一名统计苏丹人,每个进行假设检验的人都向该专长汇报其原始。他执行某种全局(字面)多重比较校正,并使用校正后的版本进行回复。p

这将迎来科学和理性的黄金时代吗?不,可能不会。


让我们从考虑检验中的一对假设开始。我们测量两组的某些属性,并希望区分关于该属性的两个假设:H 0 组的均值相同。ħ  基团具有不同的装置。 在有限样本中,即使H 0确实为真,均值也不可能完全相等:测量误差和其他可变性来源可能会推高各个值。但是,H 0t
H0: The groups have the same mean.HA: The groups have different means.
H0H0假设在某种意义上是“无聊的”,研究人员通常担心避免出现“假阳性”情况,在这种情况下,他们声称发现了真正不存在的群体之间的差异。因此,如果在原假设下看起来不太可能,并且仅按照惯例,将相似性阈值设置为5%,则我们仅将结果称为“显着”。

这适用于单个测试。现在,假设您决定运行多个测试,并且愿意接受5%的机会错误地接受每个测试的。因此,有了足够的测试,您几乎肯定会开始犯错误,并且其中很多。H0

各种多重校正方法旨在帮助您恢复为个别测试选择的名义错误率。他们这样做的方式略有不同。控制家庭明智错误率的方法(例如BonferroniSidakHolm过程)说:“您希望在一次测试中有5%的机会出错,所以我们将确保您的错误率不超过5您在所有测试中犯任何错误的几率。” 控制错误发现率的方法而是说“您一次在一次测试中最多有5%的时间出错是可以的,因此,在进行多次测试时,我们将确保不超过5%的'通话'是错误的”。(看到不同?)


现在,假设您试图控制曾经运行过的所有假设检验的家庭错误率。您实际上是在说,您希望有<5%的机会永远拒绝任何原假设。这设置了一个不可能严格的阈值,推论实际上是无用的,但是还有一个更紧迫的问题:您的全局更正意味着您正在测试绝对无意义的“复合假设”,例如

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

通过False Discovery Rate(错误发现率)校正,数字问题并不是那么严重,但从哲学上讲还是一团糟。取而代之的是,定义相关测试的“族”是有意义的,例如基因组学研究期间的候选基因列表,或光谱分析期间的一组时频仓。为家人量身定制一个特定的问题,实际上可以直接解释您的I型错误界限。例如,您可以从自己的基因组数据中查看经过FWER校正的一组p值,然后说“这些基因中的任何一个都是假阳性的可能性小于5%”。这比模糊的保证要好得多,因为模糊的保证涵盖了您不关心的人在您不关心的主题上所做的推断。

不利的一面是,他对“家庭”的适当选择是有争议的,有点主观(所有基因都是一个家庭还是我只能考虑激酶?),但是应该由您的问题来告知,我不相信任何人认真主张几乎如此广泛地定义家庭。


贝叶斯呢?

贝叶斯分析为该问题提供了连贯的替代方案-如果您愿意稍微远离Frequentist Type I / Type II错误框架。我们从一些没有承诺的事开始,然后……一切……。每次我们学习某种东西时,这些信息都会与先验信息组合在一起,产生后验分布,而后验分布又将成为我们下次学习某件事的先验信息。这为您提供了一个一致的更新规则,并且您可以通过计算两个假设之间的贝叶斯因子来比较关于特定事物的不同假设。您可能会考虑出模型的大部分,这甚至不会使这个过程特别繁琐。

有一个持久的...模因,即贝叶斯方法不需要多次比较校正。不幸的是,后验几率只是常客(即关心I / II型错误的人)的另一个检验统计量。它们没有任何控制这些类型错误的特殊属性(为什么会这样?)因此,您又回到了棘手的领域,但也许是出于一些原则性的考虑。

贝叶斯的反论点是我们应该专注于我们现在所知道的,因此这些错误率并不那么重要。


重现性

您似乎暗示不正确的多重比较-校正是导致许多错误/不可再现结果的原因。我的感觉是其他因素更有可能成为问题。一个明显的问题是发布压力导致人们避免真正强调其假设的实验(即不良的实验设计)。

p


谢谢马特。我喜欢“统计苏丹”的想法。仍然可以在不进行某些此类校正的情况下控制错误发现率吗?
开尔文

9
我要说的是,担心所有人类活动中的错误发现率”(或全家错误率)都是没有道理的。这样做将需要太多的风险规避,以至于您将一事无成。相反,您将单个实验的FDR / FWER保持在相当低的水平,并尝试复制同样有趣/有用的重要内容。
马特·克劳斯

谢谢,我想最终归结为重要的事情的复制。这完全与科学哲学相一致,没有任何假设可以得到证实,只有通过反复的实验才能随着时间的推移加以强化。
开尔文

3
苏丹统计+1。一个重要的考虑因素:苏丹应该如何处理p值连续到达的事实?糟糕的p = 0.045首先到达将被认为是重要的,但是在几个世纪之后将没有机会了吗?这似乎没有意义(抄送@Kelvin)。另一个考虑因素:假设苏丹要等一年,然后对过去一年的所有结果进行更正。我不知道调整后的Alpha阈值实际上将变成什么。有什么想法吗,马特?这是(错误地!)假设每个人都同意一个共同的alpha。
变形虫说恢复莫妮卡

2
@amoeba,这是一个有趣的问题,我不确定我是否知道。我们钟爱的Data Despot可能会迫使每个人使用某种顺序设计,这可能会有所帮助,但他仍在测试这种奇怪的复合假设。或者,我们大多数时候都可以成为贝叶斯主义者,而不必再担心我们的Type I / II错误记录了。这有点便宜(如果您无法击败他们,请忽略他们!),但我认为这与人们在实践中的行为很接近。
马特·克劳斯

7

我认为您故意描绘了对统计产生的科学的悲观看法。我认为,的确,统计数据不仅仅是提供p值的一组工具。关于科学归纳程序可能涉及的某些影响,也有一种严谨,谨慎和警惕的状态……在我看来,您所说的一切都是真实的,以下是我对我们为什么有一定保证的一些看法关于我们产生的知识:

  • 首先,一般而言,不应仅在ap值低于给定阈值的论点下得出结论。

  • 其次,据我所知,“已发表的科学结果中有一半以上是错误的”的论点是相关且有趣的,但它们是基于大约等于0.05的p值计算的(例如,关于p值和错误发现率的混淆) 。对于较低的p值,其效果远低于已宣布的效果,实际上,获得小于0.05的p值并不罕见。此外,许多子假设多次证实了给定的假设,这又降低了已宣布的影响。

  • 第三,可重复性问题是真实的,但也是统计学家必须通过识别并处理混杂效应,小组设计……来解决的问题,如果以专业知识和严谨性来完成,这可以很好地完成。

  • 最后,据我所知,原型统计研究必须或多或少地遵循以下五个连续步骤:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    该一般准则使我们无法将钓鱼活动作为得出一般性结论的工具。

最后,我要说的是,您的意图是通过过度限制p值来保护我们免受不良科学结论的影响,这有点虚幻。我宁愿通过确保并鼓励进行警告和适当的分析来保护我们免受不良科学结论的影响(我想这就是为什么有这么多合格的人才在这里帮助其他人的原因)。


2
我认为防守无济于事。当前的科学不可重复性问题不仅是“有趣的”问题,而且还处于危机时刻,自从是否相信一项特定研究(甚至是批准的药物的有效性)以来,就一直被《自然》杂志甚至《经济学人》杂志报道。 )尽管投资了数十亿美元,但现在不比掷硬币更好。
开尔文

6
我同意存在危机。我的观点是您可以检查硬币的质量。并非所有纸张都具有相同的质量,根据我的经验,有时很容易指出纸张有缺陷。我不否认问题,我不否认解决方案:只进行适当的分析:)
peuhp

好的,谢谢,我尊重您的回答。但是,从统计学的角度来看,无论实验的质量如何,如果不进行某些校正,我们将永远无法控制整体的错误发现率,可以吗?
开尔文

0

是否可以在不进行某些纠正的情况下控制错误发现率?

100一种一种

请记住,(惯常的)错误率与任何通过单个测试测试的假设的所有概率均无关,而是作为保证长期失败率的测试方法。多重比较的校正是保证长期失败率的另一种方法:一种构造包含多个测试的复合方法的方法,以便使化合物的某些保证的长期失败率保持不变。

如果您执行一个包含100个测试的实验,并报告其中有5个反对无效,则声称您已观察到一些真实的结果,则不会给任何人留下深刻的印象,因为平均而言,在100个真实无效测试中,有5%会拒绝; 您所采用的方法“进行100个测试并报告其中任何一个是否满足5%的阈值”,则失败率高于5%。因此,您可以选择控制多个比较,并报告例如100个测试中有2个的p值低于(5/100 == 0.05)%。现在,您采用了一种方法,该方法可以再次保证有5%的失败率(即使没有假设是错误的,也要报告至少一个有效测试的错误)。

一种,未校正的阈值)。相反,如果每个人每次研究总是检验100个真实假设并且不应用FEW,则报告显着效果的实验数量将超过5%的保证错误率。(与FDR /错误检测率对比,FDR /错误检测率不是保证对多个真实假设的检验中报告任何重要检验的比率的方法。)


6
您在第一段中所说的“错误发现率”不是所谓的“错误发现率”。
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.