方差分析:测试多组正常性的假设,每组样本很少


12

假定以下情况:

我们有大量(例如20个),小组规模较小(例如n = 3)。我注意到,如果我从均匀分布生成值,则即使误差分布均匀,残差也将看起来近似正态。以下R代码演示了此行为:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

如果我查看三个一组的样本的残差,则很明显会出现这种情况:

r1=x1mean(x1,x2,x3)=x1x1+x2+x33=23x1x2x3.

在此处输入图片说明

由于是标准偏差相差不大的随机变量之和,因此其分布比各个项更接近于正态分布。r1

现在假设我对真实数据而不是模拟数据也有相同的情况。我想评估关于正态性的ANOVA假设是否成立。最推荐的程序建议对残留物进行目视检查(例如QQ图)或对残留物进行正态性测试。如我上面的示例所示,这对于小组人数很少并不是最佳选择。

当我有许多小尺寸的组时,还有更好的选择吗?


1
由于多种原因,这似乎不是问题。首先,您的残差将显得均匀:查看直方图可以看到大量的组。其次,对于大多数分析而言,残差的正态性并不重要。重要的是采样分布的近似正态性。那么,应用程序的哪些特殊方面会导致您认为存在任何实际问题?
ub

1
a)我的残差将不会统一。我已经对20到20000的多个组(不是每个组的样本)进行了测试。它看起来像是介于均匀和正常之间的东西,具有明显的正常趋势。b)我知道这与采样分布的近似正态性有关。这是问题的全部要点,因为残差看起来很正常,但采样分布却不是。因此,我无法使用残差来测试采样分布的属性。
Erik

2
那是正确的。但是,您是否真正对错误的分布感兴趣,或者对执行方差分析感兴趣?(我并不是想暗示这个问题应该被忽略-这是您提出的一个令人着迷的问题-但我只是想知道您是否真的需要答案才能继续进行数据分析。)
笨蛋

3
但是您可以使用相同的模拟来研究ANOVA在您的情况下的鲁棒性!
kjetil b halvorsen 2015年

4
一个稍微切线但相关的评论:通常,在进行假设检验之前使用正态性检验(或其他模型假设)会(至少)带来三个问题:1)如果这样做,则需要考虑多次检验;2)拒绝其他假设,例如“不正常”并不意味着您可以得出正态性;3)模型假设的测试具有自己的模型假设,那么您在哪里停止?
Martha 2015年

Answers:


1

解决这个问题的方法尚未完全完成。我对此有一些见识,但需要一段时间才能解释。为此,让我们考虑标准偏差对于较小的数字是有偏差的。这样做的原因是,如果我们取任意两个数字,则我们将样本均值任意指定为,其中总体均值很可能位于之间的间隔也可以是或。这意味着平均而言。因此,只有当,此偏差才会变小a + ba<ba+b2b σ < 一个σ > b SD < σ Ñ > 100σ(a,b)σ<aσ>bSD<σn>100。对于每个样本数量较少的较长的SD系列,SD计算变得更加精确,而且显然更加不准确。

现在,我们可以在正常情况下对SD进行小数校正,而不必沮丧地举手。(哈!解决我们的痛苦的方法。)

E[μ]SD(n)μ(n)=2n1Γ(n2)Γ(n12)=114n732n219128n3+O(n4)参见E[μ]

对于,这是。这意味着我们必须将SD除以那么多才能估算。Γ 3n=3σΓ(32)=π20.8862269255σ

现在,在您提出的情况下,您还要进行其他几件事。碰巧,均匀分布位置的最佳度量不是平均值。尽管样本均值和样本中位数都是中点的无偏估计量,但两者均不如样本中范围有效,即样本最大值和样本最小值的算术平均值,即最小方差无偏估计量UMVU估计器的中点(以及最大似然估计)的。

现在要解决这个问题了。如果您使用极值的平均值,则只要您的数据是真正均匀分布的,则位置度量的方差会更小。它可能是正态分布的,因为单个极值尾巴可能很正常。然而,只有3个样本,标准偏差将需要校正。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.