方差分析与Kruskal-Wallis检验之间的差异


20

我正在学习R,并且一直在进行方差分析。我都在跑

kruskal.test(depVar ~ indepVar, data=df)

anova(lm(depVar ~ indepVar, data=dF))

这两个测试之间有实际区别吗?我的理解是,他们都评估了总体均值相同的零假设。

Answers:


28

检验的假设和假设存在差异。

方差分析(和t检验)明确地是对均值的相等性的检验。从技术上讲,Kruskal-Wallis(和Mann-Whitney)可以看作是平均排名的比较。

因此,就原始值而言,Kruskal-Wallis 比均值比较更为笼统:它测试了来自每组的随机观测是否同样有可能高于或低于来自另一组的随机观测的概率。作为比较基础的实际数据量既不是均值差异也不是中位数差异(在两个示例中),它实际上是所有成对差异中位数 -样本间Hodges-Lehmann差异。

但是,如果您选择做一些限制性假设,那么Kruskal-Wallis可以看作是检验总体均值,分位数(例如中位数)以及其他各种指标的均等性。也就是说,如果您假设原假设下的组分布是相同的,并且在替代假设下,唯一的变化是分布偏移(所谓的“ 位置偏移替代 ”),那么它也是一个检验均值均值(以及同时的中位数,较低四分位数等)。

[如果您做出此假设,则可以像使用ANOVA一样获得相对位移的估计值和间隔。好了,也可以在没有这种假设的情况下获得间隔,但是它们更难以解释。]

如果您看这里的答案,尤其是最后的答案,它将讨论t检验与Wilcoxon-Mann-Whitney之间的比较,(至少在进行两尾检验时)相当于ANOVA和Kruskal-Wallis仅用于两个样本的比较;它提供了更多细节,并且大部分讨论都延续到了Kruskal-Wallis对ANOVA的讨论中。

实际差异并不清楚您的意思是什么。您通常以类似的方式使用它们。当两组假设都适用时,它们通常倾向于给出相当相似的结果,但是在某些情况下它们当然可以给出相异的p值。

编辑:这是一个即使在小样本情况下推理相似度的示例-这是从正态分布(小样本量)中抽样的三组(第二组和第三组与第一组相比)之间位置偏移的联合接受区域对于特定数据集,为5%的水平:

Kruskal-Wallis和Anova中位置差异的接受区域

可以看到许多有趣的特征-在这种情况下,KW的接受区域略大,其边界由垂直,水平和对角直线段组成(不难找出原因)。这两个区域告诉我们有关所关注参数的信息非常相似。


2
+1。我敢稍作修改,只是在我认为必要的地方加强调。无论您是否同意,请立即查看。
ttnphns

@ttnphns感谢您的编辑。有某些特定原因导致您更改了某些内容,因此我可以编辑一些原始内容。但是,也许我应该更清楚地说明为什么我以前写过它。但是首先,我想仔细考虑如何最好地保留您的所有更改。
Glen_b-恢复莫妮卡

4

就在这里。这anova是参数化方法,而kruskal.test是非参数化方法。因此 kruskal.test不需要任何分配假设。
从实际的角度来看,当您的数据倾斜时,anova这不是一个很好的使用方法。例如看这个问题


4
我要说的是,与参数ANOVA相比,Kruskal-Wallis ANOVA对分布进行了宽松的假设:每组中的观察值均来自形状相似的总体。与传统测试一样,异方差或高度偏斜的分布仍然存在问题。
chl 2013年

2
怎么样,@chl?等级不会因偏斜而更改,KW是基于等级的。我想念什么?
彼得·弗洛姆

6
3/π

H0

1
@StéphaneLaurent如果形状不相同,则可能导致错误的推断。在这里查看我的示例
Flask,

3

Δ在此处输入图片说明

()H0{Δ=0}H1个{Δ0}H0H0H0{分布相等}

Δ>0Δ

Xÿñ=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

在此处输入图片说明

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

正如我在一开始所声称的那样,我不确定KW的精确构造。也许我的答案对于另一个非参数检验(Mann-Whitney?..)更正确,但是方法应该相似。


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersion正如Glen的回答,评论以及本网站上的许多其他地方所提到的,这是正确的,但是对测试功能的阅读范围狭窄。same shape/dispersion实际上不是一个固有的假设,而是在某些情况下使用而在其他情况下不使用的附加假设。
ttnphns

PS您的第二个示例不与KW测试相抵触或反驳。测试的H0 不是 distributions are equal,这样认为是错误的。H0只是,以图解方式,“重力的凝结”的两个点并不彼此偏离。
ttnphns 2013年

H0

1
krusal.test()H0

1
是的 the equality of the location parameters of the distribution是正确的表述(通常不应将“位置”视为平均值或中位数)。如果您采用相同的形状,那么自然地,该相同的H0就变成“相同分布”。
ttnphns

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.