弗里德曼测验后如何正确应用Nemenyi事后测验


11

我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布,因此我选择了基于Demšar(2006)的Friedman检验和Nemenyi事后检验。

然后,我发现另一篇论文,除了建议其他方法(例如Quade测试和随后的Shaffer post-hoc测试)之外,它们以不同的方式应用Nemenyi测试。

如何正确应用Nemenyi事后测试?

1.使用学生化范围统计信息吗?

在Demšar的论文中,它表示如果平均秩差大于的临界距离CD,则拒绝零假设(两种算法没有性能差异

CD=qαk(k+1)6N

“临界值qα基于学生化范围统计量除以 ”2.

经过一番挖掘后,我发现可以为某些alpha查找“临界值”,例如在的表中α=0.05查找无限的自由度(在每个表的底部)。

2.还是使用正态分布?

就在我以为自己知道该怎么做的时候,我发现另一篇论文再次让我感到困惑,因为它们仅使用正态分布。Demšar在第12页指出了类似的事情:

使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率,然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。

z=(RiRj)k(k+1)6N
αα

在此段落中,他正在谈论将所有算法与控制算法进行比较,但是这句话“它们调整方式的不同……以补偿多次比较”表明,这也应适用于Nemenyi检验。

因此,对我而言,合乎逻辑的是,根据正态分布的检验统计量计算p值,然后除以来校正该值。zk(k1)/2

但是,这会产生完全不同的等级差异,从而拒绝原假设。现在,我陷入了困境,不知道该采用哪种方法。我强烈倾向于使用正态分布的方法,因为它对我来说更简单,更合乎逻辑。我也不需要查找表中的值,也不必绑定到某些重要值。

再说一次,我从未使用过学生化的距离统计数据,而且我也不了解。

Answers:


5

我也刚刚开始研究这个问题。

如前所述,当我们使用正态分布为每个测试计算p值时,这些p值不会考虑多个测试。要进行校正并控制家庭错误率,我们需要进行一些调整。Bonferonni,即用显着性水平除以原始p值或将原始p值乘以测试次数,只是一种可能的校正。在许多情况下,还有许多其他的多重测试p值校正并不那么保守。

这些p值校正未考虑假设检验的特定结构。

我更熟悉原始数据的成对比较,而不是像Kruskal-Wallis或Friedman测试中那样进行秩转换的数据。在这种情况下,这是Tukey HSD测试,用于多重比较的测试统计信息将根据学生化的范围分布进行分配,该范围是在独立样本假设下所有成对比较的分布。它基于多元正态分布的概率,该概率可以通过数值积分来计算,但通常从表中使用。

由于不了解该理论,我的猜测是,可以按照与Tukey HSD成对比较中类似的方式,将学生化的范围分布应用于等级测试。

因此,使用(2)正态分布加上多个测试p值校正和使用(1)学生化范围分布是获得测试统计量近似分布的两种不同方法。但是,如果满足使用学生化距离分布的假设,则它应提供更好的近似值,因为它是针对所有成对比较的特定问题而设计的。


1

据我所知,当仅比较两种算法时,Demšar建议使用Wilcoxon签名秩检验而不是Friedman + posthoc。令人遗憾的是,我要像解密您一样迷惑demšar除以k-1意味着什么。


1
将(k-1)除以就是将多种算法与一种控制方法进行比较。但这是一个相对于另一个,因此为NxN。我可以理解除法部分,但是与学生化范围分布的关系超出了我的理解。
哨兵

@哨兵:您必须在此处与调整因子相乘,而不是相乘。请在上方查看我的答案。
克里斯(Chris

0

我还偶然发现了要从正态t分布还是学生化t分布计算p值的问题。不幸的是,我仍然无法回答,因为不同的论文传达了不同的方法。

但是,为了计算调整后的p值,必须将未校正的p值乘以调整因子,例如,在与一种控制方法比较时,p *(k-1)或p *((k *(k-1 ))/ 2)用于nxn比较。

如果与未调整的p进行比较,则应除以调整因子就是alpha值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.