何时使用Wilcoxon秩和检验代替未配对的t检验?


26

这是弗兰克·哈雷尔(Frank Harrell)在这里写的后续问题:

以我的经验,准确的t分布所需的样本大小通常大于手头的样本大小。正如您所说,Wilcoxon符号秩检验非常高效,而且功能强大,因此我几乎总是喜欢它而不是t检验

如果我理解正确,则在比较两个不匹配样本的位置时,如果样本量较小,我们宁愿使用Wilcoxon秩和检验而不是不配对t检验。

从理论上讲,即使我们两组的样本量相对较大,我们还是更愿意使用Wilcoxon秩和检验而不是不成对的t检验吗?

我对这个问题的动机来自观察到的是,对于单个样本t检验,将其用于偏小分布的不太小的样本会产生错误的I型错误:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
对我来说,0.0572似乎足够接近0.05。
mark999 2011年

嗨,马克-在对原假设进行100000次重复时,我们预计不会从0.05处获得该差异水平。通常,我们希望正负的差为0.05的两倍,即sqrt(0.05 * 0.95 / 100000)的两倍
Tal Galili

1
我同意这是不正确的。我只是说它看起来足够接近实际用途。
mark999 2011年

1
一个相关的问题:如何在t检验或非参数检验(例如小样本中的Wilcoxon)之间进行选择,该检验考虑了配对和非配对检验,以及Wilcoxon的替代品,如Brunner-Munzel。弗兰克·哈雷尔(Frank Harrell)也提供了一个很好的答案,这解释了为什么他比上面的摘录更详细地说明自己的方法是合理的(例如,在单调变换下秩不变的重要性)。
银鱼

@TalGalili:考虑到您正在进行t检验并且违反了正态性假设(我看到您的样本呈指数分布),为什么您不期望得到这种差异水平?我是在这里从新手的角度问的。我只是想了解我们的期望,在违反正态性假设的情况下进行了一次样本t检验。为什么平均I型错误应小于5%,或大于5%,或其他任何值?从我的角度来看,我们正在测试的是,并且分布是正常的。H0:μ=50
Erosennin

Answers:


23

就在这里。例如,从具有无限方差的分布中进行的任何采样都会破坏t检验,但不会破坏Wilcoxon。参考非参数统计方法(Hollander和Wolfe),我发现均匀分布的Wilcoxon相对于t检验的渐近相对效率(ARE)为1.0,Logistic相对密度为1.097(即Wilcoxon更好),1.5相对于t检验。双指数(Laplace)和3.0。

Hodges和Lehmann表明,Wilcoxon相对于任何其他测试的最小ARE为0.864,因此,相对于其他任何测试,使用它的效率永远不会超过14%。(当然,这是渐近的结果。)因此,弗兰克·哈雷尔(Frank Harrell)对威尔科克森(Wilcoxon)的默认使用可能应该被包括我在内的几乎每个人所采用。

编辑:针对评论中的后续问题,对于那些喜欢置信区间的人,Hodges-Lehmann估计量是“对应” Wilcoxon检验的估计量,并且可以围绕此建立置信区间。


1
如果使用Wilcoxon检验,是否有一种简单的方法来获得置信区间?似乎鼓励人们过分强调p值,甚至比使用参数方法时要强调的更多。
mark999 2011年

是的,Hodges-Lehmann估计器是相关的估计器,并且我已经编辑了响应的主体,以便将来的读者不必阅读这些注释。
jbowman 2011年

谢谢jbowman。我对Hodges-Lehmann估计量不熟悉,但是会发现我能找到的信息。
mark999 2011年

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware演示了如何使用R来获得Hodges-Lehmann估计及其置信区间。
Frank Harrell

1
(+1)来自愚蠢的反等级传统主义者。但是,等级检验的一个挑战是假设是模糊的。通常与t检验的假设不同。t检验始终检验均值差,Wilcoxon检验加权均值秩差。当然,如果秩均值差异在统计上是显着的,则我们知道分布必须不同,即使它们的均值相同。在所有情况下,两种测试均无法检测分布差异。我之所以这么说是因为我赞成可解释性。(1/2)
AdamO

24

让我带你回到我们讨论的意见,这个你的问题。Wilcoxon秩和检验等同于Mann-Whitney U检验(其对两个以上样本的直接扩展称为Kruskal-Wallis检验)。您可以在Wikipedia以及此文本中看到,Mann-Whitney(或Kruskal-Wallis)通常比较的不是均值或中位数。它比较了值的总体患病率:哪个样本“随机较大”。该测试是免费的。T检验比较均值。假定为正态分布。因此,测试涉及不同的假设。在大多数情况下,我们不打算专门比较均值,而是想知道哪个样本的值更大,这使Mann-Whitney成为我们的默认检验。另一方面,当两个分布都是对称的时,检验一个样本是否比另一个样本“更大”的任务退化为比较两种均值的任务,然后,如果分布是正态且方差相等,则t检验变得有些更加强大。


+1可将您的答案与被测假设的含义联系起来。
Josh Hemann

所谓“哪个样本“随机地更大””,是指“哪个样本通常比另一个样本具有更大的值”?如果不是,那是什么意思?您能再详细说明一下吗?
Erdogan CEVHER '18年

1
@埃尔多安,是的,我们可以像你说的那样说。严格的措辞是这样的:在随机选择的对象对中,每个样本中的一个,“随机性更高”的样本中的对象将比另一个样本中的对象具有更高的概率(按值)> 0.5。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.