具有高斯误差的简单线性回归是一个很好的属性,它不能推广到广义线性模型。
在广义线性模型中,响应遵循给出均值的给定分布。线性回归遵循这种模式。如果我们有
yi=β0+β1xi+ϵi
与ϵi∼N(0,σ)
那我们也有
yi∼N(β0+β1xi,σ)
好的,因此响应遵循广义线性模型的给定分布,但是对于线性回归,我们还必须使残差遵循高斯分布。为什么不是通用规则时强调残差是正常的?好吧,因为这是更有用的规则。考虑残差的正态性的好处是,这很容易检查。如果我们减去估计的均值,则所有残差都应具有大致相同的方差和大致相同的均值(0),并且将大致呈正态分布(请注意:我说“大致”是因为,如果我们没有完美的估计值,回归参数,我们当然不这么做, Xϵix。但希望估算中有足够的精度可以忽略不计!)。
另一方面,查看未调整的,如果它们均具有不同的平均值,我们就无法真正判断它们是否正常。例如,考虑以下模型:yi
yi=0+2×xi+ϵi
与和ϵi∼N(0,0.2)xi∼Bernoulli(p=0.5)
则将是高度双峰的,但不会违反线性回归的假设!另一方面,残差将遵循大致正态分布。yi
这是一些R
代码来说明。
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')