在线性回归中确认残差的分布


17

假设我们进行了简单的线性回归y=β0+β1x+u,保存残差ui^和绘制残差分布的直方图。如果我们得到的东西看起来像是熟悉的分布,是否可以假定我们的误差项具有该分布?说,如果我们发现残差类似于正态分布,那么假设总体中误差项的正态性是否有意义?我认为这是明智的,但是如何证明其合理性呢?


1
我个人觉得很难从直方图(或核密度图)评估正态性。我决不会将它们作为“最终”证据。QQ情节为此目的更为强大。

Answers:


18

这完全取决于您如何估计参数。通常,估计量是线性的,这意味着残差是数据的线性函数。当错误有一个正态分布,那么这样做的数据,自何处这样做对残差û的索引数据的情况下,当然)。uiu^ii

可以想象(并且在逻辑上可能),当残差看起来具有近似正态(单变量)分布时,这是由误差的非正态分布引起的。但是,使用最小二乘(或最大似然)估计技术,从某种意义上说,残差(多元)分布的特征函数与误差的变化不能有太大差异,因此计算残差的线性变换是“温和的” 。

在实践中,我们永远不需要将错误精确地按正态分布,因此这是不重要的问题。错误的重要意义在于:(1)他们的期望都应该接近于零;(2)它们之间的相关性应该低;(3)外围值应在可接受的范围内。为了检查这些,我们对残差应用各种拟合优度检验,相关性检验和离群值检验。仔细的回归建模始终包括运行此类测试(其中包括残差的各种图形可视化,例如plot当应用于lm类时,由R的方法自动提供)。

解决这个问题的另一种方法是从假设的模型进行模拟。这是R完成此工作的一些(最少的,一次性的)代码:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

对于n = 32的情况,此99个残差集的重叠概率图显示,由于它们均匀地分裂到参考线,因此它们倾向于接近误差分布(这是标准正态):y=x

n = 32的图

对于n = 6的情况,概率图中较小的中值斜率表明残差的方差比误差小,但总体而言它们倾向于正态分布,因为大多数残差都很好地跟踪了参考线(鉴于小值:n

n = 6的图


如果您在生成数据时添加“说” rexp(n),事情将会变得更加有趣rnorm(n)。残差的分布将比您想象的更接近正态。
StasK 2012年

但是,如果我们不假设残差是正常的,那么如何计算得出的估计系数的p值呢?什么是测试统计数据?
2016年

5

yi=xiβ+ϵi
y=Xβ+ϵ
e=(IH)y
H=X(XX)1X
ei(1hii)ϵihijϵj,jijihij2+hii2=hiiO(1/n) ϵiei(1hii)ϵi

1

如果我们得到的东西看起来像是熟悉的分布,是否可以假定我们的误差项具有该分布?

我认为您不能这样做,因为如果关于错误的正态性假设不成立,那么您刚刚拟合的模型将无效。(就某种意义而言,分布的形状显然是非正态的,例如柯西等)

通常的方法不是假设fe Poisson分布误差,而是执行某种形式的数据转换,例如log y或1 / y,以对残差进行归一化。(同样,真实的模型可能不是线性的,这会使绘制的残差看起来很奇怪地分布,即使它们实际上是正态的)

说,如果我们发现残差类似于正态分布,那么假设总体中误差项的正态性是否有意义?

拟合OLS回归后,便假定了错误的正态性。是否必须为该声明提供参数,取决于您的工作类型和级别。(查看该领域公认的做法通常很有用)

现在,如果残差实际上看起来确实是正态分布的,那么您可以背对自己,因为您可以将其用作先前假设的经验证明。:)


0

是的,这很明智。残差就是误差。您也可以查看正常的QQ图。


u^iu

7
这是花哨的,但残差不是错误。残差是与估计模型的观测差异yixiβ^yixiβ

xX

1
@Wayne,我相信“它”指的是“如果我们发现残差类似于正态分布,则假设总体中误差项的正态性”。我认为您基本上是正确的,但是细微之处在于残差是样本用于估计参数的方法的乘积。我发现这是一个深思而有趣的问题。
ub

@whuber我会对您对学生化,标准化与原始残差的看法感兴趣。
米歇尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.