我使用什么测试来确认残差呈正态分布?


20

我有一些数据可以从绘制残差随时间变化的图表中看到,这几乎是正常的,但我想确定。如何测试误差残差的正态性?


3
密切相关:适用于小样本的正常检验。以下是一些其他可能引起关注的问题:正态性测试基本无用,用于讨论正态性测试的价值,以及如果残差是正态分布的,但是是y是什么?不是,用于讨论/澄清正态性是线性模型假设的意义。
gung-恢复莫妮卡

可以看到对Shapiro Wilk测试要点的一个非常普遍的误解!支持H0的正确含义是,不能拒绝H0,但要当心!它并不自动表示“数据呈正态分布” !!!!替代结果是“数据不是正态分布”。
乔·哈伦贝克

Answers:


28
  1. 没有任何测试可以告诉您残差是正态分布的。实际上,您可以确信它们不是

  2. 假设检验通常不是检查您的假设的好主意。非正态性对您的推断的影响通常不是样本大小*的函数,但是显着性检验的结果。即使对实际兴趣的问题(“这在多大程度上影响了我的推论?”)的回答可能是“几乎没有”的,但在较大的样本量下,与正常值的微小偏差仍将是显而易见的。相应地,在较小样本量下与正常值的较大偏差可能不会达到显着性。

    *(在编辑中添加)-实际上,这太弱了。实际上,只要CLT和Slutsky定理成立,非正态性的影响实际上就随样本量的减少而减小,而拒绝正态性(并可能避免遵循正则理论的程序)的能力随样本量的增加而增加……您最有能力确定非正常性往往是无论如何都没关系 ...而在小样本中,当它实际上很重要时,测试无济于事。

    ,至少在重要程度上。功率仍然是一个问题,但是,如果我们在这里考虑大样本,那么问题也就不那么严重了。

  3. 更接近于测量效果大小的是某种诊断(显示或统计),以某种方式测量非正常程度。QQ图是一个明显的显示,来自同一总体的同一样本量和不同样本量的QQ图至少是同一条曲线的两个嘈杂估计-显示出大致相同的“非正态性”。它至少应该与所关心问题的期望答案单调相关。

如果您必须使用测试,Shapiro-Wilk可能和其他任何东西一样好(Chen-Shapiro测试通常在共同感兴趣的替代方案上要好一些,但很难找到实现)–但这是在回答您的问题已经知道答案了;每当您拒绝拒绝时,它都会给出答案,您可以肯定是错误的。


4
+1 Glen_b是因为您提出了几点好建议。但是,我不会对拟合优度的使用持否定态度。当样本量较小或中等时,测试将没有足够的能力来检测与正态分布的微​​小偏差。很大的差异可能会导致非常小的p值(例如0.0001或更低)。这些可能比视觉观察qq图更正式,但仍然非常有用。人们还可以查看偏度和峰度的估计值。在非常大的样本中,拟合检验的优劣是有问题的。
Michael R. Chernick 2012年

4
在这些情况下,将检测到较小的偏离。只要分析人员意识到实践中的人口分布将不完全是正态的,并且拒绝原假设,仅是告诉他其分布稍为非正态,他就不会误入歧途。然后,在测试检测到轻微偏离的情况下,研究者应自己判断是否正常。Shapiro-Wilk实际上是对正态性假设进行更强有力的检验之一。
Michael R. Chernick 2012年

+1,我特别喜欢第二点;沿着这些思路,值得注意的是,即使偏斜或峰度相当严重,且N很大,中心极限定理将覆盖您,因此这是您不需要正态性的时候。
gung-恢复莫妮卡

3
@gung在某些情况下,对正态性的良好近似很重要。例如,在使用正常假设构建预测间隔时。但是我仍然会更多地依赖于诊断(它显示出它是非正常的)的诊断而非测试
Glen_b -Reinstate Monica 2012年

关于预测间隔的观点是一个很好的观点。
gung-恢复莫妮卡

8

Shapiro-Wilk测试是一种可能性。

Shapiro-Wilk检验

几乎所有统计软件包均实施了此测试。零假设是残差是正态分布的,因此较小的p值表示您应该拒绝零值并得出残差不是正态分布的结论。

请注意,如果样本量很大,您几乎总是会拒绝,因此残差的可视化更为重要。


它是“ Wilk”而不是“ Wilks”。
Michael R. Chernick 2012年

1

从维基百科:

单变量正态性检验包括D'Agostino的K平方检验,Jarque–Bera检验,Anderson–Darling检验,Cramér–von Mises准则,Lilliefors检验正态性(本身是Kolmogorov–Smirnov检验的改编), Shapiro-Wilk检验,Pearson卡方检验和Shapiro-Francia检验。《统计建模与分析杂志》 [1]在2011年发表的一篇论文得出的结论是,在给定的意义上,夏皮罗-威尔克(Shapiro-Wilk)具有最好的能力,在比较夏皮罗-威尔克,Kolmogorov-Smirnov,Lilliefors和Anderson-亲爱的测试。


1
-1:您可能想要包括指向Wikipedia页面的链接,删除脚注(“ [1]”)并使用blockquote函数。
伯恩德·魏斯2012年

1
每当使用这些拟合优度测试中的任何一项时,都必须牢记Glen_b提出的警告。我认为您对Shapiro-Wilk的调查结果并不像您确定的那样普遍。我不认为有全球范围内最强大的正常性测试。
Michael R. Chernick 2012年

2
ñ1个

@GregSnow我没有时间仔细检查您的程序包,我可能不擅长R来遵循所有内容。您是在说有一个全局性最强的正常性测试,还是在提供示例以说明各种测试何时最有力,因此不存在全局性测试。我怀疑一个人存在,我不认为夏皮罗-威尔克会这样。如果您声称一个存在,那么我想看看一个数学证明或一个参考。
Michael R. Chernick 2012年

1
@MichaelChernick,我的主张是,我的测试将具有与任何其他正常测试一样多的力量或更多的力量(或多或少会拒绝来自确切正态的数据的零假设)。R代码不难理解,用于计算p值的核心代码是“ tmp.p <-if(any(is.rational(x))){0”,其功效的证明应显而易见(我只声称它功能强大并且文档可能有用,而不是测试本身有用,google表示“ Cochrane的格言”。
格雷格·斯诺
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.