我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布，因此我选择了基于Demšar（2006）的Friedman检验和Nemenyi事后检验。

然后，我发现另一篇论文，除了建议其他方法（例如Quade测试和随后的Shaffer post-hoc测试）之外，它们以不同的方式应用Nemenyi测试。

如何正确应用Nemenyi事后测试？

1.使用学生化范围统计信息吗？

在Demšar的论文中，它表示如果平均秩差大于的临界距离CD，则拒绝零假设（两种算法没有性能差异

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

“临界值qα基于学生化范围统计量除以 ” $\sqrt{2}.$

经过一番挖掘后，我发现可以为某些alpha查找“临界值”，例如在的表中 $\alpha = 0.05$ 查找无限的自由度（在每个表的底部）。

2.还是使用正态分布？

就在我以为自己知道该怎么做的时候，我发现另一篇论文再次让我感到困惑，因为它们仅使用正态分布。Demšar在第12页指出了类似的事情：

使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率，然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。
$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ $\alpha$ $\alpha$

在此段落中，他正在谈论将所有算法与控制算法进行比较，但是这句话“它们调整方式的不同……以补偿多次比较”表明，这也应适用于Nemenyi检验。

因此，对我而言，合乎逻辑的是，根据正态分布的检验统计量计算p值，然后除以来校正该值。 $z$ $k(k-1)/2$

但是，这会产生完全不同的等级差异，从而拒绝原假设。现在，我陷入了困境，不知道该采用哪种方法。我强烈倾向于使用正态分布的方法，因为它对我来说更简单，更合乎逻辑。我也不需要查找表中的值，也不必绑定到某些重要值。

再说一次，我从未使用过学生化的距离统计数据，而且我也不了解。

nonparametric multiple-comparisons post-hoc

— 哨兵
source

5

我也刚刚开始研究这个问题。

如前所述，当我们使用正态分布为每个测试计算p值时，这些p值不会考虑多个测试。要进行校正并控制家庭错误率，我们需要进行一些调整。Bonferonni，即用显着性水平除以原始p值或将原始p值乘以测试次数，只是一种可能的校正。在许多情况下，还有许多其他的多重测试p值校正并不那么保守。

这些p值校正未考虑假设检验的特定结构。

我更熟悉原始数据的成对比较，而不是像Kruskal-Wallis或Friedman测试中那样进行秩转换的数据。在这种情况下，这是Tukey HSD测试，用于多重比较的测试统计信息将根据学生化的范围分布进行分配，该范围是在独立样本假设下所有成对比较的分布。它基于多元正态分布的概率，该概率可以通过数值积分来计算，但通常从表中使用。

由于不了解该理论，我的猜测是，可以按照与Tukey HSD成对比较中类似的方式，将学生化的范围分布应用于等级测试。

因此，使用（2）正态分布加上多个测试p值校正和使用（1）学生化范围分布是获得测试统计量近似分布的两种不同方法。但是，如果满足使用学生化距离分布的假设，则它应提供更好的近似值，因为它是针对所有成对比较的特定问题而设计的。

— 约瑟夫
source

1

据我所知，当仅比较两种算法时，Demšar建议使用Wilcoxon签名秩检验而不是Friedman + posthoc。令人遗憾的是，我要像解密您一样迷惑demšar除以k-1意味着什么。

— 5xum
source

1

将（k-1）除以就是将多种算法与一种控制方法进行比较。但这是一个相对于另一个，因此为NxN。我可以理解除法部分，但是与学生化范围分布的关系超出了我的理解。

— 哨兵

@哨兵：您必须在此处与调整因子相乘，而不是相乘。请在上方查看我的答案。

— 克里斯（Chris

0

我还偶然发现了要从正态t分布还是学生化t分布计算p值的问题。不幸的是，我仍然无法回答，因为不同的论文传达了不同的方法。

但是，为了计算调整后的p值，必须将未校正的p值乘以调整因子，例如，在与一种控制方法比较时，p *（k-1）或p *（（k *（k-1 ））/ 2）用于nxn比较。

如果与未调整的p进行比较，则应除以调整因子就是alpha值。

— 克里斯
source

弗里德曼测验后如何正确应用Nemenyi事后测验

如何正确应用Nemenyi事后测试？