这显然在实践中绝对是一场噩梦,但可以做到:我们任命一名统计苏丹人,每个进行假设检验的人都向该专长汇报其原始。他执行某种全局(字面)多重比较校正,并使用校正后的版本进行回复。p
这将迎来科学和理性的黄金时代吗?不,可能不会。
让我们从考虑
检验中的一对假设开始。我们测量两组的某些属性,并希望区分关于该属性的两个假设:
H 0: 组的均值相同。ħ 甲: 基团具有不同的装置。
在有限样本中,即使
H 0确实为真,均值也不可能完全相等:测量误差和其他可变性来源可能会推高各个值。但是,
H 0tH0:HA: The groups have the same mean. The groups have different means.
H0H0假设在某种意义上是“无聊的”,研究人员通常担心避免出现“假阳性”情况,在这种情况下,他们声称发现了真正不存在的群体之间的差异。因此,如果在原假设下看起来不太可能,并且仅按照惯例,将相似性阈值设置为5%,则我们仅将结果称为“显着”。
这适用于单个测试。现在,假设您决定运行多个测试,并且愿意接受5%的机会错误地接受每个测试的。因此,有了足够的测试,您几乎肯定会开始犯错误,并且其中很多。H0
各种多重校正方法旨在帮助您恢复为个别测试选择的名义错误率。他们这样做的方式略有不同。控制家庭明智错误率的方法(例如Bonferroni,Sidak和Holm过程)说:“您希望在一次测试中有5%的机会出错,所以我们将确保您的错误率不超过5您在所有测试中犯任何错误的几率。” 控制错误发现率的方法而是说“您一次在一次测试中最多有5%的时间出错是可以的,因此,在进行多次测试时,我们将确保不超过5%的'通话'是错误的”。(看到不同?)
现在,假设您试图控制曾经运行过的
所有假设检验的家庭错误率。您实际上是在说,您希望有<5%的机会永远拒绝任何原假设。这设置了一个不可能严格的阈值,推论实际上是无用的,但是还有一个更紧迫的问题:您的全局更正意味着您正在测试绝对无意义的“复合假设”,例如
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
通过False Discovery Rate(错误发现率)校正,数字问题并不是那么严重,但从哲学上讲还是一团糟。取而代之的是,定义相关测试的“族”是有意义的,例如基因组学研究期间的候选基因列表,或光谱分析期间的一组时频仓。为家人量身定制一个特定的问题,实际上可以直接解释您的I型错误界限。例如,您可以从自己的基因组数据中查看经过FWER校正的一组p值,然后说“这些基因中的任何一个都是假阳性的可能性小于5%”。这比模糊的保证要好得多,因为模糊的保证涵盖了您不关心的人在您不关心的主题上所做的推断。
不利的一面是,他对“家庭”的适当选择是有争议的,有点主观(所有基因都是一个家庭还是我只能考虑激酶?),但是应该由您的问题来告知,我不相信任何人认真主张几乎如此广泛地定义家庭。
贝叶斯呢?
贝叶斯分析为该问题提供了连贯的替代方案-如果您愿意稍微远离Frequentist Type I / Type II错误框架。我们从一些没有承诺的事开始,然后……一切……。每次我们学习某种东西时,这些信息都会与先验信息组合在一起,产生后验分布,而后验分布又将成为我们下次学习某件事的先验信息。这为您提供了一个一致的更新规则,并且您可以通过计算两个假设之间的贝叶斯因子来比较关于特定事物的不同假设。您可能会考虑出模型的大部分,这甚至不会使这个过程特别繁琐。
有一个持久的...模因,即贝叶斯方法不需要多次比较校正。不幸的是,后验几率只是常客(即关心I / II型错误的人)的另一个检验统计量。它们没有任何控制这些类型错误的特殊属性(为什么会这样?)因此,您又回到了棘手的领域,但也许是出于一些原则性的考虑。
贝叶斯的反论点是我们应该专注于我们现在所知道的,因此这些错误率并不那么重要。
重现性
您似乎暗示不正确的多重比较-校正是导致许多错误/不可再现结果的原因。我的感觉是其他因素更有可能成为问题。一个明显的问题是发布压力导致人们避免真正强调其假设的实验(即不良的实验设计)。
p