为什么线性回归对残差有假设，而广义线性模型对响应有假设？

14

为什么线性回归和广义模型的假设不一致？

在线性回归中，我们假设残差来自高斯
在其他回归（逻辑回归，毒物回归）中，我们假设响应来自某种分布（二项式，泊松等）。

为什么有时会假设剩余而其他时间会在响应时？是因为我们要导出不同的属性？

编辑：我认为mark999的显示两种形式是相等的。但是，我对iid还有其他疑问：

我的另一个问题是，逻辑回归是否有iid假设？显示广义线性模型没有iid假设（独立但不相同）

对于线性回归，是否真的成立，如果我们对残差进行假设，我们将有iid，但是如果对响应进行假设，我们将拥有独立但不相同的样本（具有不同不同高斯样本）？ $\mu$

— 海涛都
source

另见stats.stackexchange.com/questions/295340/...

— HALVORSEN的Kjetil b

12

具有高斯误差的简单线性回归是一个很好的属性，它不能推广到广义线性模型。

在广义线性模型中，响应遵循给出均值的给定分布。线性回归遵循这种模式。如果我们有

$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

与 $\epsilon_i \sim N(0, \sigma)$

那我们也有

$y_i \sim N(\beta_0 + \beta_1 x_i, \sigma)$

好的，因此响应遵循广义线性模型的给定分布，但是对于线性回归，我们还必须使残差遵循高斯分布。为什么不是通用规则时强调残差是正常的？好吧，因为这是更有用的规则。考虑残差的正态性的好处是，这很容易检查。如果我们减去估计的均值，则所有残差都应具有大致相同的方差和大致相同的均值（0），并且将大致呈正态分布（请注意：我说“大致”是因为，如果我们没有完美的估计值，回归参数，我们当然不这么做， $\epsilon_i$ $x$ 。但希望估算中有足够的精度可以忽略不计！）。

另一方面，查看未调整的，如果它们均具有不同的平均值，我们就无法真正判断它们是否正常。例如，考虑以下模型： $y_i$

$y_i = 0 + 2 \times x_i + \epsilon_i$

与和 $\epsilon_i \sim N(0, 0.2)$ $x_i \sim \text{Bernoulli}(p = 0.5)$

则将是高度双峰的，但不会违反线性回归的假设！另一方面，残差将遵循大致正态分布。 $y_i$

这是一些R代码来说明。

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

— 悬崖AB
source

y_{i} = 1 + 2 \times x_{i} + ϵ_{i}

$y_i = 1 + 2 \times x_i + \epsilon_i$

3

@ hxd1011：是的，这是边际分布（显然不是正态）与给定x的条件分布之间的差（自从我们模拟它以来，我们就知道它是正态的！）。不考虑条件分布和边际分布之间的差异是一个非常普遍的错误。

— 悬崖AB

14

$i = 1, \ldots, n$

Y_{i} = β_{0} + β_{1} X_{i 1} + \dots + β_{k} X_{i k} + ϵ_{i},

$Y_i = \beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik} + \epsilon_i,$

ϵ_{i}

$\epsilon_i$

σ^{2}

$\sigma^2$

X_{i 1}, \dots, X_{i k}

$X_{i1}, \ldots, X_{ik}$

Y_{i}

$Y_i$

β_{0} + β_{1} X_{i 1} + \dots + β_{k} X_{i k}

$\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$

σ^{2}

$\sigma^2$

$X_{i1}, \ldots, X_{ik}$ $\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$

通常的具有正态误差的多元线性回归模型是具有正态响应和标识链接的广义线性模型。

— 马克999
source