除非我没有弄错,否则在线性模型中,假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?我认为确实可以,但是随后的诸如此类的陈述似乎相当混乱:
您可以清楚地看到,此模型中“正态性”的唯一假设是残差(或“错误”)应呈正态分布。没有关于预测变量或响应变量的分布的假设。X 我ÿ 我
除非我没有弄错,否则在线性模型中,假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?我认为确实可以,但是随后的诸如此类的陈述似乎相当混乱:
您可以清楚地看到,此模型中“正态性”的唯一假设是残差(或“错误”)应呈正态分布。没有关于预测变量或响应变量的分布的假设。X 我ÿ 我
Answers:
标准OLS模型是其中对于固定的。ε 〜Ñ(→ 0,σ 2 我Ñ)
的确确实意味着,尽管这是我们对分布的假设的结果。,而不是实际的假设。也请记住,我说的的条件分布,不是的边缘分布。我专注于条件分布,因为我认为这就是您真正要问的问题。ε ÿ ÿ
我认为令人困惑的部分是,这并不意味着的直方图看起来很正常。我们说整个向量是来自多元正态分布的单次绘制,其中每个元素的均值可能不同。这与iid正常样本不同。错误实际上是一个iid样本,因此它们的直方图看起来很正常(这就是为什么我们对残差进行QQ图绘制,而不是对响应进行绘制的原因)。ÿ È (ÿ 我| X 我)= X Ť 我 β ε
这是一个示例:假设我们正在测量6年级和12年级的样本的高度我们的模型是与。如果我们查看的直方图,我们可能会看到一个双峰分布,六年级的一个峰值,十二年级的一个峰值,但这并不违反我们的假设。ħ 我 = β 0 + β 1我(12年级生)+ ε 我ε 我〜IID Ñ(0 ,σ 2)ħ 我
因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?
甚至不是遥远的。我记得的方式是,残差是模型确定性部分的正常条件。这是实际情况的演示。
我首先随机生成一些数据。然后,我定义一个结果,该结果是预测变量的线性函数,并估计一个模型。
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
让我们看一下这些残差是什么样的。我怀疑它们应该是正态分布的,因为结果中y
增加了正常噪声。的确如此。
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
但是,检查y的分布,我们可以发现它绝对不正常!我用与相同的均值和方差覆盖了密度函数y
,但这显然很糟糕!
在这种情况下发生这种情况的原因是,输入数据甚至远非正常。除了残差外,关于此回归模型的任何内容都不需要正态性-不需要自变量和因变量。
不,不是。例如,假设我们有一个预测奥林匹克运动员体重的模型。虽然重量可以很好地在每种运动项目中的运动员之间平均分配,但它不会在所有运动员中分配-甚至可能不是单峰的。