正常误差的假设是否暗示Y也是正常的？

12

除非我没有弄错，否则在线性模型中，假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此，如果我们假设误差项是正态分布的，这是否意味着响应也是正态分布的？我认为确实可以，但是随后的诸如此类的陈述似乎相当混乱：

您可以清楚地看到，此模型中“正态性”的唯一假设是残差（或“错误”）应呈正态分布。没有关于预测变量或响应变量的分布的假设。 $\epsilon_i$ $x_i$ $y_i$

regression assumptions

— 欧内斯特·A
source

7

如果是非随机的，则正态性表示因变量的正态性。对于随机自变量，这通常不会成立，因此取决于自变量的分布。

x

$x$

ϵ

$\epsilon$

19

标准OLS模型是其中对于固定的。 $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

的确确实意味着，尽管这是我们对分布的假设的结果。，而不是实际的假设。也请记住，我说的的条件分布，不是的边缘分布。我专注于条件分布，因为我认为这就是您真正要问的问题。 $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

我认为令人困惑的部分是，这并不意味着的直方图看起来很正常。我们说整个向量是来自多元正态分布的单次绘制，其中每个元素的均值可能不同。这与iid正常样本不同。错误实际上是一个iid样本，因此它们的直方图看起来很正常（这就是为什么我们对残差进行QQ图绘制，而不是对响应进行绘制的原因）。 $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

这是一个示例：假设我们正在测量6年级和12年级的样本的高度我们的模型是与。如果我们查看的直方图，我们可能会看到一个双峰分布，六年级的一个峰值，十二年级的一个峰值，但这并不违反我们的假设。 $H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— jld
source

有人可以澄清符号吗？

σ^{2} I_{n}

$\sigma^2 I_n$

— snoram '16

这意味着将 ×单位矩阵乘以标量。

n \times n

$n \times n$

σ^{2}

$\sigma^2$

— jld

该单位矩阵次存在一些差异。

n \times n

$n\times n$

— Sycorax说恢复莫妮卡

11

因此，如果我们假设误差项是正态分布的，这是否意味着响应也是正态分布的？

甚至不是遥远的。我记得的方式是，残差是模型确定性部分的正常条件。这是实际情况的演示。

我首先随机生成一些数据。然后，我定义一个结果，该结果是预测变量的线性函数，并估计一个模型。

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

让我们看一下这些残差是什么样的。我怀疑它们应该是正态分布的，因为结果中y增加了正常噪声。的确如此。

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

但是，检查y的分布，我们可以发现它绝对不正常！我用与相同的均值和方差覆盖了密度函数y，但这显然很糟糕！

在这种情况下发生这种情况的原因是，输入数据甚至远非正常。除了残差外，关于此回归模型的任何内容都不需要正态性-不需要自变量和因变量。

— Sycorax说恢复莫妮卡
source

8

不，不是。例如，假设我们有一个预测奥林匹克运动员体重的模型。虽然重量可以很好地在每种运动项目中的运动员之间平均分配，但它不会在所有运动员中分配-甚至可能不是单峰的。

— 彼得·弗洛姆-恢复莫妮卡
source