在线性回归中确认残差的分布

17

假设我们进行了简单的线性回归 $y=\beta_0+\beta_1x+u$ ，保存残差 $\hat{u_i}$ 和绘制残差分布的直方图。如果我们得到的东西看起来像是熟悉的分布，是否可以假定我们的误差项具有该分布？说，如果我们发现残差类似于正态分布，那么假设总体中误差项的正态性是否有意义？我认为这是明智的，但是如何证明其合理性呢？

r regression residuals

— marcin63
source

1

我个人觉得很难从直方图（或核密度图）评估正态性。我决不会将它们作为“最终”证据。QQ情节为此目的更为强大。

18

这完全取决于您如何估计参数。通常，估计量是线性的，这意味着残差是数据的线性函数。当错误有一个正态分布，那么这样做的数据，自何处这样做对残差（的索引数据的情况下，当然）。 $u_i$ $\hat{u}_i$ $i$

可以想象（并且在逻辑上可能），当残差看起来具有近似正态（单变量）分布时，这是由误差的非正态分布引起的。但是，使用最小二乘（或最大似然）估计技术，从某种意义上说，残差（多元）分布的特征函数与误差的变化不能有太大差异，因此计算残差的线性变换是“温和的” 。

在实践中，我们永远不需要将错误精确地按正态分布，因此这是不重要的问题。错误的重要意义在于：（1）他们的期望都应该接近于零；（2）它们之间的相关性应该低；（3）外围值应在可接受的范围内。为了检查这些，我们对残差应用各种拟合优度检验，相关性检验和离群值检验。仔细的回归建模始终包括运行此类测试（其中包括残差的各种图形可视化，例如plot当应用于lm类时，由R的方法自动提供）。

解决这个问题的另一种方法是从假设的模型进行模拟。这是R完成此工作的一些（最少的，一次性的）代码：

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

对于n = 32的情况，此99个残差集的重叠概率图显示，由于它们均匀地分裂到参考线，因此它们倾向于接近误差分布（这是标准正态）： $y=x$

n = 32的图

对于n = 6的情况，概率图中较小的中值斜率表明残差的方差比误差小，但总体而言它们倾向于正态分布，因为大多数残差都很好地跟踪了参考线（鉴于小值： $n$

n = 6的图

— ub
source

如果您在生成数据时添加“说” rexp(n)，事情将会变得更加有趣rnorm(n)。残差的分布将比您想象的更接近正态。

— StasK 2012年

但是，如果我们不假设残差是正常的，那么如何计算得出的估计系数的p值呢？什么是测试统计数据？

— 2016年

5

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (I - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

— 斯塔克
source

1

如果我们得到的东西看起来像是熟悉的分布，是否可以假定我们的误差项具有该分布？

我认为您不能这样做，因为如果关于错误的正态性假设不成立，那么您刚刚拟合的模型将无效。（就某种意义而言，分布的形状显然是非正态的，例如柯西等）

通常的方法不是假设fe Poisson分布误差，而是执行某种形式的数据转换，例如log y或1 / y，以对残差进行归一化。（同样，真实的模型可能不是线性的，这会使绘制的残差看起来很奇怪地分布，即使它们实际上是正态的）

说，如果我们发现残差类似于正态分布，那么假设总体中误差项的正态性是否有意义？

拟合OLS回归后，便假定了错误的正态性。是否必须为该声明提供参数，取决于您的工作类型和级别。（查看该领域公认的做法通常很有用）

现在，如果残差实际上看起来确实是正态分布的，那么您可以背对自己，因为您可以将其用作先前假设的经验证明。:)

— 意思指
source

0

是的，这很明智。残差就是误差。您也可以查看正常的QQ图。

— 汤玛士
source

{\hat{u}}_{i}

$\hat{u}_i$

u

$u$

7

这是花哨的，但残差不是错误。残差是与估计模型的观测差异

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$

x

$x$

X

$X$

1

@Wayne，我相信“它”指的是“如果我们发现残差类似于正态分布，则假设总体中误差项的正态性”。我认为您基本上是正确的，但是细微之处在于残差是样本和用于估计参数的方法的乘积。我发现这是一个深思而有趣的问题。

— ub

@whuber我会对您对学生化，标准化与原始残差的看法感兴趣。

— 米歇尔