正常误差的假设是否暗示Y也是正常的?


12

除非我没有弄错,否则在线性模型中,假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?我认为确实可以,但是随后的诸如此类的陈述似乎相当混乱:

您可以清楚地看到,此模型中“正态性”的唯一假设是残差(或“错误”)应呈正态分布。没有关于预测变量或响应变量的分布的假设X ÿ ϵixiyi

来源:预测变量,响应和残差:真正需要正态分布的是什么?


7
如果是非随机的,则正态性表示因变量的正态性。对于随机自变量,这通常不会成立,因此取决于自变量的分布。εxϵ

Answers:


19

标准OLS模型是其中对于固定的ε Ñ0σ 2 ÑY=Xβ+εεN(0,σ2In) XRn×p

的确确实意味着,尽管这是我们对分布的假设的结果。,而不是实际的假设。也请记住,我说的的条件分布,不是的边缘分布。我专注于条件分布,因为我认为这就是您真正要问的问题。ε ÿ ÿY|{X,β,σ2}N(Xβ,σ2In)εYY

我认为令人困惑的部分是,这并不意味着的直方图看起来很正常。我们说整个向量是来自多元正态分布的单次绘制,其中每个元素的均值可能不同。这与iid正常样本不同。错误实际上是一个iid样本,因此它们的直方图看起来很正常(这就是为什么我们对残差进行QQ图绘制,而不是对响应进行绘制的原因)。ÿ È ÿ | X = X Ť β εYYE(Yi|Xi)=XiTβε

这是一个示例:假设我们正在测量6年级和12年级的样本的高度我们的模型是与。如果我们查看的直方图,我们可能会看到一个双峰分布,六年级的一个峰值,十二年级的一个峰值,但这并不违反我们的假设。ħ = β 0 + β 112年级生+ ε ε IID Ñ0 σ 2ħ HHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


有人可以澄清符号吗?σ2In
snoram '16

这意味着将 ×单位矩阵乘以标量。σ 2n×nσ2
jld

该单位矩阵次存在一些差异。n×n
Sycorax说恢复莫妮卡

11

因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?

甚至不是遥远的。我记得的方式是,残差是模型确定性部分的正常条件。这是实际情况的演示。

我首先随机生成一些数据。然后,我定义一个结果,该结果是预测变量的线性函数,并估计一个模型。

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

让我们看一下这些残差是什么样的。我怀疑它们应该是正态分布的,因为结果中y增加了正常噪声。的确如此。

在此处输入图片说明

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

但是,检查y的分布,我们可以发现它绝对不正常!我用与相同的均值和方差覆盖了密度函数y,但这显然很糟糕!

y的密度

在这种情况下发生这种情况的原因是,输入数据甚至远非正常。除了残差外,关于此回归模型的任何内容都不需要正态性-不需要自变量和因变量。

x的拒绝


8

不,不是。例如,假设我们有一个预测奥林匹克运动员体重的模型。虽然重量可以很好地在每种运动项目中的运动员之间平均分配,但它不会在所有运动员中分配-甚至可能不是单峰的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.