我对线性回归的假设有些困惑。
到目前为止,我检查了是否:
- 所有的解释变量都与响应变量线性相关。(就是这种情况)
- 解释变量之间存在共线性。(几乎没有共线性)。
- 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。
- 残差是正态分布的。(事实并非如此)
但是我然后阅读以下内容:
经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。
问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗?
问题2 我的残差的QQ正态图如下所示:
这与正态分布略有不同,并且shapiro.test
也拒绝了残差来自正态分布的原假设:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
残差与拟合值看起来像:
如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?