Answers:
这完全取决于您如何估计参数。通常,估计量是线性的,这意味着残差是数据的线性函数。当错误有一个正态分布,那么这样做的数据,自何处这样做对残差û我(我的索引数据的情况下,当然)。
可以想象(并且在逻辑上可能),当残差看起来具有近似正态(单变量)分布时,这是由误差的非正态分布引起的。但是,使用最小二乘(或最大似然)估计技术,从某种意义上说,残差(多元)分布的特征函数与误差的变化不能有太大差异,因此计算残差的线性变换是“温和的” 。
在实践中,我们永远不需要将错误精确地按正态分布,因此这是不重要的问题。错误的重要意义在于:(1)他们的期望都应该接近于零;(2)它们之间的相关性应该低;(3)外围值应在可接受的范围内。为了检查这些,我们对残差应用各种拟合优度检验,相关性检验和离群值检验。仔细的回归建模始终包括运行此类测试(其中包括残差的各种图形可视化,例如plot
当应用于lm
类时,由R的方法自动提供)。
解决这个问题的另一种方法是从假设的模型进行模拟。这是R
完成此工作的一些(最少的,一次性的)代码:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
对于n = 32的情况,此99个残差集的重叠概率图显示,由于它们均匀地分裂到参考线,因此它们倾向于接近误差分布(这是标准正态):
对于n = 6的情况,概率图中较小的中值斜率表明残差的方差比误差小,但总体而言它们倾向于正态分布,因为大多数残差都很好地跟踪了参考线(鉴于小值:
rexp(n)
,事情将会变得更加有趣rnorm(n)
。残差的分布将比您想象的更接近正态。
如果我们得到的东西看起来像是熟悉的分布,是否可以假定我们的误差项具有该分布?
我认为您不能这样做,因为如果关于错误的正态性假设不成立,那么您刚刚拟合的模型将无效。(就某种意义而言,分布的形状显然是非正态的,例如柯西等)
通常的方法不是假设fe Poisson分布误差,而是执行某种形式的数据转换,例如log y或1 / y,以对残差进行归一化。(同样,真实的模型可能不是线性的,这会使绘制的残差看起来很奇怪地分布,即使它们实际上是正态的)
说,如果我们发现残差类似于正态分布,那么假设总体中误差项的正态性是否有意义?
拟合OLS回归后,便假定了错误的正态性。是否必须为该声明提供参数,取决于您的工作类型和级别。(查看该领域公认的做法通常很有用)
现在,如果残差实际上看起来确实是正态分布的,那么您可以背对自己,因为您可以将其用作先前假设的经验证明。:)