3
弗里德曼测验后如何正确应用Nemenyi事后测验
我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布,因此我选择了基于Demšar(2006)的Friedman检验和Nemenyi事后检验。 然后,我发现另一篇论文,除了建议其他方法(例如Quade测试和随后的Shaffer post-hoc测试)之外,它们以不同的方式应用Nemenyi测试。 如何正确应用Nemenyi事后测试? 1.使用学生化范围统计信息吗? 在Demšar的论文中,它表示如果平均秩差大于的临界距离CD,则拒绝零假设(两种算法没有性能差异 CD=qαk(k+1)6N−−−−−−−√CD=qαk(k+1)6N CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} “临界值qα基于学生化范围统计量除以 ”2–√.2.\sqrt{2}. 经过一番挖掘后,我发现可以为某些alpha查找“临界值”,例如在的表中α=0.05α=0.05\alpha = 0.05查找无限的自由度(在每个表的底部)。 2.还是使用正态分布? 就在我以为自己知道该怎么做的时候,我发现另一篇论文再次让我感到困惑,因为它们仅使用正态分布。Demšar在第12页指出了类似的事情: 使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率,然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。z=(Ri−Rj)k(k+1)6N−−−−−√z=(Ri−Rj)k(k+1)6N z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} αα\alphaαα\alpha 在此段落中,他正在谈论将所有算法与控制算法进行比较,但是这句话“它们调整方式的不同……以补偿多次比较”表明,这也应适用于Nemenyi检验。 因此,对我而言,合乎逻辑的是,根据正态分布的检验统计量计算p值,然后除以来校正该值。zzzk(k−1)/2k(k−1)/2k(k-1)/2 但是,这会产生完全不同的等级差异,从而拒绝原假设。现在,我陷入了困境,不知道该采用哪种方法。我强烈倾向于使用正态分布的方法,因为它对我来说更简单,更合乎逻辑。我也不需要查找表中的值,也不必绑定到某些重要值。 再说一次,我从未使用过学生化的距离统计数据,而且我也不了解。