我应该检查什么正常性:原始数据或残差?


27

我了解到,我必须测试原始数据而不是残差的正态性。我应该计算残差然后进行Shapiro-Wilk的W检验吗?

是残差计算公式为:Ximean

请参阅上一个问题以获取我的数据和设计。


您是使用软件(如果使用的是哪种软件)执行此操作,还是尝试手动进行计算?
克里斯·西莫卡特

@克里斯Simokat:我试图用R和STATISTICA做到这一点...
斯坦

3
这个问题可能引起人们的兴趣:如果残基是正常分布的,但是不是该怎么办?它还涵盖了原始数据或残差是否需要正态化的问题。
gung-恢复莫妮卡

1
抱歉,我对SAS不够了解,无法知道如何在不同情况下自动执行此操作。但是,当您运行回归时,您应该能够将残差保存到输出数据集,然后可以制作qq图。
gung-恢复莫妮卡

1
卡伦·格雷斯·马丁(Karen Grace-Martin)的好信息:这个这个
stan,2013年

Answers:


37

为什么要测试正常性?

线性回归的标准假设是理论残差是独立的且呈正态分布。观察到的残差是理论残差的估计值,但不是独立的(对残差进行了变换,这些变换消除了某些依赖性,但仍仅给出真实残差的近似值)。因此,对观察到的残差进行测试并不能保证理论残差匹配。

如果理论残差不是完全正态分布,但样本量足够大,则中心极限定理说,基于正态性假设的通常推断(检验和置信区间,但不一定是预测区间)仍将近似正确。

还要注意,正态性检验是排除检验,它们可以告诉您数据不太可能来自正态分布。但是,如果测试不重要,并不意味着数据来自正态分布,则也可能意味着您没有足够的能力来观察差异。较大的样本量可提供更大的能力来检测非正常性,但是较大的样本和CLT表示非正常性最不重要。因此,对于小样本量,正态性假设很重要,但检验没有意义;对于大样本量,检验可能更准确,但精确正态性问题变得毫无意义。

因此,结合以上所有内容,比检验精确正态性更重要的是对数据背后的科学知识的了解,以了解总体是否足够接近正常值。诸如qqplots之类的图形可能是很好的诊断方法,但也需要对科学有所了解。如果担心存在偏斜或离群值的可能性太大,则可以使用不需要参数假设的非参数方法。


6
要回答第一行的问题:近似正态性对于在ANOVA中应用F检验并在方差周围建立置信极限至关重要。(+1)为好主意。
ub

4
@whuber,是的,近似正态性很重要,但是测试测试的是正态性,而不是近似性。对于大样本而言,近似值不必非常接近(最有可能拒绝测试的地方)。如果要证明使用F检验(或其他基于标准的推论)是正确的话,那么产生数据的科学知识和良好的知识要比正式的正态性检验有用得多。
格雷格·斯诺

Greg,好,我进行分布拟合,看到我的数据来自Beta或Gamma分布,那我该怎么办?假设高斯定律的方差分析?
斯坦

2
(+1)一切顺利,除了最后。您不必在(a)基于正态性假设的回归与(b)非参数过程之间进行选择。回归和/或广义线性模型之前的转换只是两个主要选择。我知道您不是在这里尝试总结有关统计建模的所有内容,但是最后一部分可能会稍作放大。
尼克·考克斯

因此,最后,在线性回归中,我们应该测试原始数据的正态性或残差的正态性?
vasili111

7

高斯假设是指模型中的残差。原始数据没有任何必要的假设。以每日啤酒销售的分布 在此处输入图片说明为例。在合理的模型捕获了星期几,假日/事件的影响,水平变化/时间趋势后,我们得到在此处输入图片说明


感谢您的回复。您想说我们可以将数据转换为高斯分布...?
斯坦

3
斯坦(Stan),建模的作用是准确地做到这一点,以便可以进行推断并检验假设。
IrishStat

6

首先,您可以使用QQ绘图对它进行“眼动” ,以大致了解此处是如何在R中生成一个。

根据R手册,您可以将数据向量直接输入shapiro.test()函数。

如果您想自己计算残差,则可以通过您的观测值集来计算每个残差。您可以在此处了解更多信息。


因此,据我了解,“正态性”方法实际上是检查原始数据残差的正态性。它们会自动执行此操作,我们不应该计算残差并使它们经受测试。在日常演讲中,我们通常会切换到“我的数据呈正态分布”,前提是我的数据残差为“正态”。请纠正我。
stan

6
我不同意你的最后一点。那些说我的数据是正态分布的人通常不是指残差。我认为人们这么说是因为他们认为每个统计程序都要求所有数据都是正常的。
格伦(Glen)

@Glen坦白地说,到目前为止,我(错误地)仍然这么认为...我无法理解(这是我的麻烦)如果我有gamma或beta或其他任何分布式数据,我应该像往常一样对它们进行统计分配了他们的真实/自然分布?分布的事实仅作参考?在此站点之前,我只知道高斯分布...
stan
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.