线性模型的假设以及残差不是正态分布时的处理方法


22

我对线性回归的假设有些困惑。

到目前为止,我检查了是否:

  • 所有的解释变量都与响应变量线性相关。(就是这种情况)
  • 解释变量之间存在共线性。(几乎没有共线性)。
  • 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。
  • 残差是正态分布的。(事实并非如此)

但是我然后阅读以下内容:

经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。

问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗?

问题2 我的残差的QQ正态图如下所示:

残差的正常性检查

这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

残差与拟合值看起来像:

残差与拟合

如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?


3
您的残差与拟合图表明您的因变量具有下限。这可能会驱动您看到的模式。这可以为您提供您可以考虑使用的替代模型的指示。
Maarten Buis 2014年

Answers:


25

首先,我将为您提供这篇经典且平易近人的文章的副本,并阅读:Anscombe FJ。(1973)统计分析中 图表美国统计学家。27:17–21。

关于您的问题:

答案1:因变量和自变量都不需要正态分布。实际上,它们可以具有各种循环分布。正态性假设适用于误差的分布()。YiY^i

答案2:您实际上是在询问关于普通最小二乘(OLS)回归的两个独立假设:

  1. 一种是线性假设。这意味着和之间的关系由一条直线表示(对吗?直接回到代数:,其中是截距,是该线的斜率。)违反这种假设只是意味着该关系不能用直线很好地描述(例如,是的正弦函数)YXy=a+bxaybYX,或二次函数,甚至是在某个点改变斜率的直线)。我自己首选的解决非线性问题的两步方法是(1)执行某种非参数平滑回归,以建议和之间的特定非线性函数关系(例如,使用LOWESSGAM等), (2)使用包含非线性的多重回归(例如)或包含X参数中的非线性的非线性最小二乘回归模型来指定函数关系(例如,其中YXX ý X + X 2 ý X + 最大X - θ 0 XYX+X2YX+max(Xθ,0)θ表示其中的回归直线的点上变化斜率)。YX

  2. 另一个假设是正态分布残差。有时,在OLS上下文中,人们可以有效地摆脱非正态残差;参见,例如Lumley T,Emerson S.(2002)大型公共卫生数据集中正态性假设的重要性公众健康年度回顾。23:151–69。有时,一个人做不到(再次,请参阅Anscombe文章)。

但是,我建议不要考虑OLS中的假设,而不仅仅是考虑数据的期望属性,而应该考虑描述自然的有趣出发点。毕竟,我们在世界上关心的大多数内容都比截距和斜率更有趣。创造性地违反OLS假设(使用适当的方法)可以使我们提出和回答更有趣的问题。y


2
谢谢!在一些统计课程的幻灯片中,它说如果假设失败,您可以尝试转换Y或转换解释变量。当我通过做lm(Y ^ 0.3〜+ X1 + X2 + ...)来变换Y时,我的残差确实变成了正态分布。这是有效的做法吗?
斯特凡2014年

@Stefan是的!转换响应通常是一件好事log,并且简单的功率转换很常见。
格里高尔(Gregor)2014年

@Stefan也许吧,也许不是。如果您转换结果,那么在执行分析之后,基于转换关系的推论并不一定适用于逆转换。这是因为。因此,如果您分析,找到有效的不一定会转化为有效的,CI也不一定对应于。LN Ŷ = β 0 + β X X + εVar(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
亚历克西斯

@Alexis:为什么这些页面说变量必须按正态分布?(1)pareonline.net/getvn.asp?n=2&v=8 (2)statisticssolutions.com/...
stackoverflowuser2010

7
@ stackoverflowuser2010因为他们不知道他们在说什么?该假设直接建立在数学形式主义中:其中。注意最后一部分:残差而不是正态分布的变量。看:(1)使用从0到100 的均匀分布模拟X;(2)模拟 ; (3)使回归并恢复。然后查看和的直方图ε Ñ0 σ ÿ = 3 + 0.5 × X + Ñ0 1 X β 03 β X0.5 X ÿY=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY
亚历克西斯

11

你的第一个问题是

  • 尽管有您的保证,残差图仍表明条件期望响应在拟合值中不是线性的;均值模型是错误的。

  • 您没有恒定的方差。方差模型是错误的。

您甚至无法在那里评估那些问题的正常性。


请通过查看图表详细说明您如何得出线性度结论?我了解此处未满足同方差假设。
Nisha Arora博士

残差的条件均值随着变化而变化;有一个明显的下降趋势,然后随着我们向右移动明显上升。如果看不到,请将地块切成4片。我将预测值范围的中间值放在,因此将其切开,然后将每半切成两半,比如说和。现在,这里面的每片的看着点(,,,),画直线的最好的估计。对我来说,中间两个是几乎重合,所以我结合自己的线条,给人像这样 ÿ =30060<00-3030-60>60ÿ^ÿ^=30060<00-3030-60>60
Glen_b -Reinstate莫妮卡

在中部,几乎所有残差均为负,在外部几乎所有残差均为正。这些不是随机残差的样子。
Glen_b-恢复莫妮卡

谢谢,@ Glen_b。经过一段漫长的时间后,我重新审视了我的概念,因此一开始就无法形象化。
Nisha Arora博士,

尽管这里没有太多事情要做,但我希望原始数据是非负的,并且更合适的选择是广义线性模型(也许是带有对数链接的伽马)或变换(可能是对数变换) 。
Glen_b-恢复莫妮卡

3

我不会说线性模型完全没有用。但是,这意味着您的模型无法正确/充分地解释您的数据。在某些部分中,您必须确定模型是否“足够好”。

对于第一个问题,我不认为线性回归模型假设您的因变量和自变量必须是正态的。但是,存在关于残差的正态性的假设。

对于第二个问题,您可以考虑两个不同的问题:

  1. 检查其他类型的模型。另一个模型可能更好地解释您的数据(例如,非线性回归等)。您仍然必须检查是否违反了该“新模型”的假设。
  2. 您的数据可能没有足够的协变量(因变量)来解释响应(结果)。在这种情况下,您无能为力。有时,我们可能会接受检查残差是否遵循不同的分布(例如t分布),但对您而言似乎并非如此。

除了您的问题,我还发现您的QQPlot没有被“规范化”。通常,将残差标准化后,可以更轻松地查看图,请参阅stdres

stdres(lmobject)

我希望它能对您有所帮助,也许其他人会比我更好地解释这一点。



-1

关于第二个问题,

在实践中发生的事情是我用许多自变量过度拟合了我的回答。在过度拟合模型中,我具有非正态残差。即使这样,结果也证明没有足够的证据来证明某些系数为零(p值大于0.2)的可能性。因此,在第二个模型中,通过向后选择过程消除变量,我得到了正常残差,该残差通过qqplot图形进行了验证,并通过Shapiro-Wilk检验进行了假设检验。检查是否可能是您的情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.