按家庭划分的错误界限:重用关于独立问题的不同研究的数据集是否会导致多个测试问题?


11

如果一组研究人员对给定的数据集执行多项(假设)检验,则有大量文献断言,即使检验是独立的,他们也应使用某种形式的校正进行多重检验(Bonferroni等)。我的问题是:这种逻辑是否适用于多个团队在同一数据集上测试假设?换句话说,家庭误差计算的障碍是什么?研究人员应该被限制为仅将数据集用于勘探吗?

Answers:


10

我强烈反对@fcoppens的飞跃,从认识到在单个调查中进行多重假设校正的重要性到宣称“通过相同的推理,如果多个团队执行这些测试,则同样成立”,我对此表示强烈反对。

毫无疑问,进行的研究越多,检验的假设越多,则发生的I型错误就越多。但是,我认为“家庭错误率”的含义及其在实际科学工作中的应用方式存在混淆。

首先,请记住,多次测试更正通常是在事后比较中产生的,因为没有预先设定的假设。尚不清楚在有少量预定义的假设时是否需要相同的更正。

其次,单个出版物的“科学真理”并不取决于出版物中每个陈述的真实性。一个经过精心设计的研究会从许多不同的角度研究整体科学(相对于统计)假设,并将不同类型的结果放在一起以评估科学假设。每个单独的结果都可以通过统计测试进行评估。

然而,通过从@fcoppens的说法,如果连一个的单独的统计检验,使I型错误,然后导致了“‘科学真理’的错误信念”。这是完全错误的。

与单个统计检验的有效性相反,出版物中科学假设的“科学真理” 通常来自不同类型证据的组合。坚持多种类型的证据使科学假设的有效性对于不可避免地发生的个人错误具有鲁棒性。当我回顾我的50种左右的科学出版物,我会很难找到任何这依然如此完美无瑕的每一个细节@fcoppens似乎坚持要求。然而,我同样很难找到任何地方的科学假设是完全错误的。也许不完整;当然,与该领域的后续发展无关。但在当时的科学知识状况下,这不是“错误”。

第三,该论点忽略了犯第二类错误的代价。II型错误可能会关闭有希望的科学探究的所有领域。如果要遵循@fcoppens的建议,则II型错误率将急剧上升,从而损害科学事业。

最后,该建议在实践中不可能遵循。如果我分析一组公开可用的数据,则可能无法知道是否有人使用过该数据或出于什么目的。我没有办法纠正其他人的假设检验。而且正如我上面所说的,我不必这样做。


2
我给了这个问题赏金,因为我想“提前”提出。我之所以想这样做,是因为我认为它没有得到足够的重视,而且-显然,正如我对我的回答所经历的那样-不再有“讨论”了。如图所示,这可能是一个有趣的讨论,因此您获得了(+1)

@fcoppens感谢您带来这个“前期”
EdM 2015年

从这篇文章开始,我偶然发现萨尔茨伯格Salzberg)撰写的一篇出色的论文,也谈到了这个主题,题为“关于比较分类器:避免的陷阱和推荐方法”(cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing。 pdf)。我对这次讨论表示赞赏。这种类型的问题带来了统计学和机器学习/本文稍后讨论的其他应用领域之间的鸿沟:stats.stackexchange.com/questions/1194/… ..
toypajme 2015年

1
Breiman的论文也解决了这个问题:projecteuclid.org/euclid.ss/1009213726。我希望这些论文可以为那些对当前研究和对此主题发表讨论感兴趣的人提供参考。
toypajme

还有以下论文“ 关于医学研究中alpha的生成和所有权 ”。这显然是一个有争议的话题。答案很明确的少数情况之一是药品的监管标签声明,其中医学研究或多或少有单个。一旦我们进入科学出版物,就会有更好或更没有人去执行任何此类事情。α=0.05
比约恩

4

每当您“夸大I型错误”时,都必须进行“多次测试”校正:例如,如果您执行两次测试,每个测试的置信度为,那么对于第一个测试,我们测试零H 1 0反对替代H 1 1和第二个假设H 2 0H 2 1α=5%H0(1)H1(1)H0(2)H1(2)

然后我们知道,例如第一个假设的类型I错误是错误拒绝的概率,它是α = 5 H0(1)α=5%

如果执行两个测试,那么,这两个中的至少一个被错误拒绝的概率等于两者都接受了1个减去概率所以,其中,α = 5 等于到9.75 ,因此具有至少一个错误拒绝的第一类错误几乎加倍!1(1α)2α=5%9.75%

在统计假设检验中,只有通过拒绝原假设才能找到替代假设的统计证据,拒绝原假设可以使我们得出结论,即有证据支持替代假设。(另请参见如果我们无法拒绝原假设,会发生什么?)。

因此,对虚数的错误拒绝会给我们提供错误的证据,因此对“科学真理”的错误信念。这就是为什么必须避免这种I型膨胀(I型误差几乎翻倍)的原因。较高的I类错误意味着更多错误的信念,即某种东西是科学证明的。因此,人们在家庭层面上“控制”了Ierror类型。

5%

出于相同的原因,如果多个团队(在相同数据上)执行这些测试,则同样成立。

显然,只有当我们的团队使用相同的数据时,上述发现才成立。当他们处理不同的样本时,有什么不同?

σH0μ=0H1个μ0α=5

Ø1.96σ-1.96σ

5H0H0μ=0H0Ø[-1.96σ;1.96σH0

因此,如果我们使用相同的数据,则测试的结论可能基于以“不好的机会”得出的样本。对于另一个示例,上下文是不同的。


1
我不喜欢在科学证据方面使用“证明”。
亚历克西斯

@Alexis:肯定是因为英语不是我的母语,但是我认为“证据”和“证明”更像是同义词,但事实并非如此?

1
我认为形式上的“证明”属于数学。或者,不那么正式地属于法理学。在我看来,证明不属于科学,因为这意味着探究的结束和教条的开始,而科学从根本上讲就是探究。例如,在英语(和美国)中,我们有一个反夸张的游戏,其中反进化论者会说:“生物进化只是一个理论,还没有得到科学证明。” 当然,诀窍是让听众忘记科学永远不会证明,只能提供证据。
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.