何时在多个比较中更正p值?


11

恐怕相关问题无法回答我的问题。我们评估> 2个分类器(机器学习)的性能。我们的零假设是表演没有差异。我们执行参数(ANOVA)和非参数(Friedman)检验来评估该假设。如果它们很重要,我们想找出在事后搜寻中哪些分类器有所不同。

我的问题是双重的:

1)多次比较测试后是否需要校正p值?在“ Alphafehler Kumulierung”上的德国维基百科站点上说,仅当在相同数据上检验多个假设时,才会出现此问题。比较分类器(1,2),(1,3),(2,3)时,数据仅部分重叠。是否仍然需要校正p值?

2)P值校正通常在通过t检验进行成对测试之后使用。在进行专门的事后测试,例如Nemenyi(非参数)或Tukey的HSD测试时,是否也有必要?对于Tukey的HSD,此答案为“否”:Tukey HSD测试是否可正确进行多次比较?。是否有规则或我必须针对每个可能的事后测试进行检查?

谢谢!


你为什么要执行这两个因素方差分析和弗里德曼的测试?
亚历克西斯

它是关于一个自动测试框架,如果不满足参数假设,该框架应为审阅者提供参数和非参数的选择。
克里斯(Chris)

1
关于您提到的综合测试:(A)如果数据组是独立的,则应该使用ANOVA(参数)或Kruskal-Wallis(非参数)测试;(B)如果您的组是依赖的(例如重复测量),则应使用重复测量ANOVA(参数)或Friedman(非参数)检验。(经典)ANOVA和Friedman测试,因为它的替代方案听起来不正确。
GegznaV

Answers:


10

问题1的答案
如果您担心出现I型错误的可能性,则需要对多个比较进行调整。隐喻/思想实验的简单组合可能会有所帮助:

想象一下您想中奖。奇怪的是,该彩票为您提供0.05的中奖机会(即20中的1)。M是该彩票的彩票费用,这意味着您一次彩票购买的预期收益为M / 20。现在甚至更陌生了,想象一下,由于未知原因,这个成本M可以让您拥有所需的任意数量的彩票(或至少两张以上)。自己想一想:“玩的越多,赢的越多”,您将赢得一大堆门票。抽奖的预期收益不再是M / 20,而是更大。现在将“中奖错误”替换为“犯下I类错误”。

如果您不在乎错误,并且您不在乎别人反复嘲笑地将注意力转移到有关豆形软糖的某些动画片上,那么请继续进行,不要为多次比较进行调整。

在“ 家庭数据” 纠错方法(例如Bonferroni,Holm-Sidák等)中出现“相同数据”问题,因为“家庭”的概念有些模糊。但是,错误发现率方法(例如Benjamini和Hochberg,Benjamini和Yeuketeli等)具有这样的性质,即其结果在不同的推理组中均很可靠。


对问题2的回答
大多数对测验都需要纠正,尽管所谓的测验在风格和学科上都有差异。例如,有些人提到“ Bonferroni t检验”(这是一个巧妙的技巧,因为Bonferroni既未开发t检验,也未开发Bonferroni调整用于多个比较:)。我个人对此感到不满意,因为(1)我想在进行一组统计检验与调整多个比较之间进行区分,以便有效地理解我的推论,以及(2)一个基于的可靠定义的新的成对测试,那么我知道我可以对多个比较进行调整。α


2
+1获得全面幽默的答案(并引用xkcd)。尤其是,您还解决了我尚未明确的问题,即“ Bonferroni检验”和“ Bonferroni校正”之间是否有区别。但是,您是否愿意根据我的问题描述来解释多重比较问题?我知道一个分类器就像是漫画中没有/蓝色/绿色/ ...软糖的治疗组。
克里斯(Chris)

@克里斯,不客气...我不太确定你在问什么。是的,需要多次比较。是的,您可以在任何返回成对测试中执行FWER或FDR调整(该过程通常会整体或顺序地更改或更改拒绝水平)。pp
亚历克西斯

我认为很好,非常感谢!将抽奖示例应用于我的用例可能需要更多时间,但我明白了。
克里斯

@Chris知道彩票只是一个隐喻。如果您在应用FWER或FDR方法方面需要帮助,请查看Wikipedia条目,在此处搜索相关问题,或者,也许对此提出新问题。:)
Alexis 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.