方差分析假设正态性/残差的正态分布


52

ANOVA上Wikipedia页面列出了三个假设,即:

  • 案例独立性–这是简化统计分析模型的假设。
  • 正态性–残差的分布是正态的。
  • 方差的均等(或“同质”),称为均方差...

这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。

弹出几个问题:

  • 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))?
  • 如果没有,应该采用哪种假设?一?都?
  • 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

您几乎可以忽略那些声称源数据需要正态分布的消息来源的其他信息。谁说“我们”只不过是用直方图检查原始值。您是六个西格玛班之一吗???
DWin 2011年

1
@Andy W:我刚刚在ANOVA上的Wikipedia文章的相关部分添加了一个链接。
一站式

@DWin:blog.markanthonylawson.com/?p=296(对不起,完全偏离主题,但无法抗拒)
一站式

@onestop谢谢。我之所以只请求该链接,是因为我很懒,并且不想自己在维基百科上查找ANOVA,不是因为它对于问题至关重要。
安迪W

Answers:


35

让我们假设这是一个固定效果模型。(对于随机效应模型,建议实际上并没有改变,只是稍微复杂一点。)

  1. 不,残差的正态分布和正态分布不相同。假设您测量了使用和不使用肥料的农作物的单产。在没有肥料的地块上,产量范围为70到130。在两个有肥料的地块上,产量范围为470到530。进一步假设平均产量分别为100和500。然后所有残差的范围是-30至+30。它们可能是(也可能不是)正态分布,但显然这是完全不同的分布。

  2. 残差的分布很重要,因为它们反映了模型的随机部分。还要注意,p值是根据F(或t)统计量计算得出的,这些p值取决于残差而不是原始值。

  3. 如果在数据显著和重要影响(如本例),那么可能会作出“严重”的错误。幸运的话,您可以做出正确的决定:也就是说,通过查看原始数据,您会发现混合的分布,这看起来很正常(或不正常)。关键是您要查找的内容无关紧要。

方差分析残差不必一定接近正常值即可拟合模型。但是,残差的接近正态性对于从F分布计算出的p值有意义是必不可少的。


6
我认为有一点要补充:在ANOVA中,每组(而非整体)内的正态性等于残差的正态性。
Aniko

2
@Aniko请您详细说明一下“等价”是什么意思?几乎是自言自语的,一个组内的正态性与该组残差的正态性相同,但是在每个组内单独的正态性暗示(或暗示)这些残差的正态性是错误的。
whuber

7
我的意思是重言式:如果各组是正常的,则残差是正常的。相反,仅当添加了同质性时才适用(如ANOVA)。我并不是要提倡检查组而不是残差,但是我认为这是假设的措词变化的根本原因。
Aniko

2
我注意到进行ANOVA的人们通常似乎对计算p值感兴趣,因此残差的正态性对他们很重要。如果我们对根据F分布计算p值不感兴趣,是否有任何通用原因适合ANOVA模型?如果这个问题太宽泛,无法发表评论,我们深表歉意。
user1205901 2015年

3
@ user1205901这是非常好的一点。不依赖F检验的ANOVA的两个常见用法是:(1)这是获得效果估计的便捷方法,(2)它是方差计算的组成部分。
ub

8

标准的经典单向方差分析可以看作是经典的“ 2-样本T检验”到“ n样本T检验”的扩展。通过将仅两组的单向方差分析与经典的2样本T检验进行比较可以看出这一点。

我认为让您感到困惑的是(在模型的假设下)残差和原始数据都是正态分布的。但是,原始数据由具有不同均值的正态分布组成(除非所有影响都完全相同),但方差相同。另一方面,残差具有相同的正态分布。这来自均等的第三个假设。

这是因为正态分布可分解为均值和方差分量。如果具有均值和方差正态分布,则可以写为其中具有标准正态分布。Yijμjσ2Yij=μj+σϵijϵij

虽然ANOVA可从正态性假设推导出,但我认为(但不确定)它可以由线性假设(沿最佳估计最佳线性无偏估计器(BLUE)行代替,其中“最佳”被解释为最小均方)错误)。相信这主要涉及在更换分布与任何相互独立的分布(在所有Ĵ),其具有平均为0,方差1。ϵij

就原始数据而言,当针对模型中的每个因子水平分别绘制时,原始数据应该看起来很正常。这意味着在单独的图上为每个j绘制。Yij


1
+1用于指出(在最后一段中)同调假设。
Whuber

这是否意味着如果 n个依赖组进行比较,我们需要分别检查它们的残差(导致n组残差)?
斯坦

5

在组大小为的单向情况下: 其中pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

F遵循 -配送如果和是独立的, -分布式变量与和度的自由。当和是均值为和等比例的平方自变量的平方和时,就是这种情况。因此,和必须正态分布。FSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)Mj是整个模型的残差(),是受限模型的残差()。这些残差之差为。Y=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

编辑以通过@onestop进行澄清:在所有真实的组均值都相等(因此等于),因此组级残差正态性表示也是如此。DV值本身不需要正态分布。H0Myi(j)MjMMj


2
的假设是,这些是 -分布式在零假设下,它是该组的装置都相等,即为所有。在这种情况下,为正常表示为正常。因此,您只需要检查第一个,即观察水平残差是正常的。χ 2 中号Ĵ = 中号Ĵ ÿ Ĵ - 中号Ĵ 中号Ĵ - 中号SSχ2Mj=MjyijMjMjM
一站式

@onestop编辑以反映您的澄清,谢谢!
caracal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.