我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布,因此我选择了基于Demšar(2006)的Friedman检验和Nemenyi事后检验。
然后,我发现另一篇论文,除了建议其他方法(例如Quade测试和随后的Shaffer post-hoc测试)之外,它们以不同的方式应用Nemenyi测试。
如何正确应用Nemenyi事后测试?
1.使用学生化范围统计信息吗?
在Demšar的论文中,它表示如果平均秩差大于的临界距离CD,则拒绝零假设(两种算法没有性能差异
“临界值qα基于学生化范围统计量除以 ”
经过一番挖掘后,我发现可以为某些alpha查找“临界值”,例如在的表中查找无限的自由度(在每个表的底部)。
2.还是使用正态分布?
就在我以为自己知道该怎么做的时候,我发现另一篇论文再次让我感到困惑,因为它们仅使用正态分布。Demšar在第12页指出了类似的事情:
使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率,然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。
在此段落中,他正在谈论将所有算法与控制算法进行比较,但是这句话“它们调整方式的不同……以补偿多次比较”表明,这也应适用于Nemenyi检验。
因此,对我而言,合乎逻辑的是,根据正态分布的检验统计量计算p值,然后除以来校正该值。
但是,这会产生完全不同的等级差异,从而拒绝原假设。现在,我陷入了困境,不知道该采用哪种方法。我强烈倾向于使用正态分布的方法,因为它对我来说更简单,更合乎逻辑。我也不需要查找表中的值,也不必绑定到某些重要值。
再说一次,我从未使用过学生化的距离统计数据,而且我也不了解。