我可以信任非正态分布DV的ANOVA结果吗?


22

我用重复测量方差分析分析了一个实验。方差分析是3x2x2x2x3,其中2个对象间因子,3个以内(N = 189)。错误率是因变量。错误率分布的偏斜为3.64,峰度为15.75。偏斜和峰度是90%的错误率表示为0的结果。在这里阅读一些以前的有关正常性测试的线程会使我有些困惑。我认为,如果您拥有的数据不是正态分布的,则尽可能对它进行最佳转换,但是似乎很多人认为使用ANOVA或T检验分析非正态数据是可以接受的。我可以相信方差分析的结果吗?

(仅供参考,将来我打算使用二项分布的混合模型在R中分析此类数据)


1
您可以链接到其中一些线程吗?我的直觉是“不,不,不”,但是我不是专家,我对阅读其中一些论点很感兴趣。
马特·帕克

4
您肯定不能相信具有此类数据的从F分布派生的任何p值!
whuber

3
许多人将方差分析的稳健性作为与非常规数据一起使用的理由。恕我直言,健壮性不是测试的一般属性,但您必须精确说明a)测试健壮性针对哪些违反假设(正常性,球形度...),b)这些违规在多大程度上没有太大影响c)测试显示健壮性的前提条件(大且相等的像元大小...)。在您的分割图设计中,我希望有人陈述球度和协方差矩阵相等的精确假设。在2因子情况下,它已经令人难以置信。
caracal 2010年

3
@Matt听起来90%的残差为零。如果是这种情况,则不会进行任何变换来使残差远接近正常值。仿真研究表明,F检验的p值对偏离正态性高度敏感。(在您的情况下,F检验中的某些分母很可能为零:这是事情可能出多大错误的清晰指标。)您需要其他方法。做什么取决于为什么这么多残差为零。缺乏足够的测量精度?
ub

2
@Matt听起来更合适,假设您的数据很重要。另一个有吸引力的考虑因素是负二项式响应为零膨胀(ats.ucla.edu/stat/r/dae/zinbreg.htm)。
ub

Answers:


20

像其他参数测试一样,方差分析假设数据符合正态分布。如果您的测量变量不是正态分布的,那么使用方差分析或其他假设为正态的检验来分析数据时,可能会增加出现假阳性结果的机会。幸运的是,方差分析对偏离正常度的中等偏差不是很敏感。使用各种非正态分布的模拟研究表明,假阳性率不受此假设的假设影响很大(Glass等,1972; Harwell等,1992; Lix等,1996)。这是因为当您从总体中抽取大量随机样本时,即使总体不是正态,这些样本的均值也大致呈正态分布。

可以测试数据集与正态分布的拟合优度。我不建议您这样做,因为许多明显非正态的数据集非常适合进行方差分析。

相反,如果您有足够大的数据集,建议您只看一下频率直方图。如果看起来或多或少是正常现象,请继续进行方差分析。如果看起来像正态分布已被推到一侧,例如上面的硫酸盐数据,则应尝试不同的数据转换,看看是否有任何数据转换使直方图看起来更正态。如果这不起作用,并且数据仍然看起来严重不正常,那么使用方差分析来分析数据可能仍然可以。但是,您可能要使用非参数检验对其进行分析。几乎每个参数统计检验都有一个非参数替代品,例如用Kruskal–Wallis检验代替单向方差检验,Wilcoxon符号秩检验而不是配对t检验以及Spearman秩相关而不是线性回归。这些非参数测试不假定数据符合正态分布。他们确实假设不同组中的数据具有相同的分布。如果不同的组具有不同的形状分布(例如,一个组向左倾斜,另一组向右倾斜),则非参数测试可能不会比参数测试好。

参考文献

  1. Glass,GV,PD Peckham和JR Sanders。1972年。未能满足假设的后果,这些假设基于方差和协方差的固定效应分析。牧师 Res。42:237-288。
  2. Harwell先生,EN Rubinstein,WS Hayes和CC Olds。1992。方法研究的蒙特卡罗总结:一因素和两因素固定效应方差分析案例。J.教育 统计 17:315-339。
  3. Lix,LM,JC Keselman和HJ Keselman。1996年。再次提出了违反假设的后果:对方差F检验单向分析的替代方案进行的定量审查。牧师 Res。66:579-619。

7
我可能只是在这里表现出我的无知,但不是方差分析背后的假设是残差正常吗?在那种情况下,变量本身是否非正态并不重要,只要残差符合模式即可。
richiemorrisroe 2011年

5
也许这个问题已经过编辑,但我真的不明白为什么这个答案被赞成并接受了。这是一个不错的一般建议,但是与“歪斜和峰度是90%的错误率意味着0的结果”的特殊情况几乎没有关系。在这种情况下,答案应该为否,否和否。
Erik 2013年

8

Dixon(2008)明确地将错误率视为DV,非常有力地证明了通过ANOVA进行的无效假设测试既会导致错误警报率增加(在没有错误影响时称呼效果为“显着”)也可能导致未命中率增加(缺少真实效果)。他还表明,混合效应建模(指定二项式分布误差)是分析速率数据的更合适方法。


4

如此大的偏差和大量的0不能信任您的ANOVA。一种更合适的方法是将许多错误用作DV(从而将DV转换为计数数据)并进行泊松分析。这种方法需要使用混合效应分析,并将误差分布族指定为Poisson。Mike Lawrence提到的Dixon(2008) *文章在R中使用混合效应分析,但具有二项式结果。因为我的许多结果变量都是二项式的,所以我已经完全转向进行R的大部分重复测量分析。合适的R包是lme4

Dixon,P.(2008年)。重复测量设计中的精度模型。记忆与语言杂志59(4),447-456。


2

Juan提供了很多东西,尽管我会重复其他观点,并重复一遍,以确保最佳准确性,只要变量的残差不是零,变量本身就可以是非正态的。此外,还可以在yellowbrickstats.com上获得简化且结构化的答案(通过带注释的流程图)。


1
抱歉,但是我的是-1。一般来说,这是正确的,但是如果我们的通胀为零,则残差不会是。我认为答案不仅应涵盖一般性,而且应针对具体问题。
Erik

1

天花板效应是这里的问题。非参数测试是您最安全的选择,尽管如果n大,方差分析对这种违反正态性的方法很有效。通常,人们只是使用直方图来测试这一点,但是如果问题出在残差上,那么问题可能会更严重。还请记住,这如何影响您的结果(不仅如此)。Pallant(2007)可能会说,这增加了您输入第一类错误的机会,因此,如果您降低临界alpha值,则可以缓解这种情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.