恐怕相关问题无法回答我的问题。我们评估> 2个分类器(机器学习)的性能。我们的零假设是表演没有差异。我们执行参数(ANOVA)和非参数(Friedman)检验来评估该假设。如果它们很重要,我们想找出在事后搜寻中哪些分类器有所不同。
我的问题是双重的:
1)多次比较测试后是否需要校正p值?在“ Alphafehler Kumulierung”上的德国维基百科站点上说,仅当在相同数据上检验多个假设时,才会出现此问题。比较分类器(1,2),(1,3),(2,3)时,数据仅部分重叠。是否仍然需要校正p值?
2)P值校正通常在通过t检验进行成对测试之后使用。在进行专门的事后测试,例如Nemenyi(非参数)或Tukey的HSD测试时,是否也有必要?对于Tukey的HSD,此答案为“否”:Tukey HSD测试是否可正确进行多次比较?。是否有规则或我必须针对每个可能的事后测试进行检查?
谢谢!