OLS残差不呈正态分布时的回归


43

该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论

但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。

违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?


5
也有几个主题讨论正常性对于许多目的基本上是不相关的。如果您有独立的观察结果,并且样本量至少适中,那么对OLS推断唯一重要的是所有残差都具有相同的方差。不正常。如果您使用标准误差的稳健/异方差一致性/三明治/ Huber-Eicker-White估计,那么甚至不需要恒定方差要求。
来宾

@guest我只是在阅读有关该线程的正常性测试效率的信息。回归分析甚至没有标记。
罗伯特·库布里克

试试这个。这是一个外部链接。并参见例如Stock和Watson的ELS章节,计量经济学简介。我发誓我不会编造这些东西!
2012年

@guest这两个链接处理结果的正态分布,而不是残差。
罗伯特·库布里克

1
不,他们没有。作者经常将“ Y的分布”称为“以X为条件的Y的分布”的简写。回到你原来的问题;除非您只有很少的样本或大量重尾数据,否则使用具有可靠标准误差的OLS是不错的第一步。在这些情况下,正常性只是一个问题。
来宾

Answers:


53

面对非正态误差,普通最小二乘估计仍然是一个合理的估计。特别是,高斯-马尔可夫定理指出,只要有误差,普通最小二乘估计就是回归系数的最佳线性无偏估计量(“最佳”表示就最小化均方误差而言为最佳)。

(1)均值为零

(2)不相关

(3)具有恒定的方差

请注意,这里没有正常的条件(甚至没有任何错误是IID的条件)。

当您尝试获取置信区间和/或时,正常条件起作用。作为@MichaelChernick提到(+1,顺便说一句),可以使用强大的推理时的误差是不正常的,只要从常态出发,可以通过该方法处理的-例如,(正如我们在讨论这个线程)胡伯当真正的误差分布是正态分布与长尾分布(您的示例看起来像)之间的混合时,-estimator可以提供可靠的推断,但对于其他偏离正态性可能没有帮助。迈克尔提到的一种有趣的可能性是自举以获取OLS估计的置信区间,并查看其与基于Huber的推断的比较。中号pM

编辑:我经常听到它说您可以依靠中央极限定理来处理非常规错误-这并不总是正确的(我不只是在讨论定理失败的反例)。在OP所指的真实数据示例中,我们的样本量很大,但可以看到长尾误差分布的证据-在出现长尾误差的情况下,不必一定要依靠中央极限定理来给出您可以近似无偏地推断出实际的有限样本量。例如,如果误差遵循具有自由度的(这显然不是更多2.01t2.01 系数估计值是渐近正态分布的,但是“踢入”所需的时间比其他短尾分布要长得多。

下面,我通过粗略的仿真演示R,当,其中 ,的采样分布即使样本量为仍然拖尾很长:ε 2.01 β 1 ñ = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

在此处输入图片说明


2
+1,这是该主题的绝佳概述。我特别感谢您的编辑。有什么特别之处吗?这似乎非常具体。df=2.01
gung-恢复莫妮卡

2
@gung,谢谢-我选择因为当时不存在随机变量的方差,因此中心极限定理不适用。d ˚F 2df=2.01tdf2
2012年

1
@来宾,这是一个人为的示例,只是为了说明当您遇到长尾错误时,不能盲目地信任CLT。我同意这对许多应用程序来说都是极端的,但是在引用 OP 的示例(stats.stackexchange.com/questions/29636/…)中,数据显示出很长的尾部误差分布-形状与分布,但它没有明确的长尾,并根据实际数据做了结果。我已编辑“编辑”以突出显示此内容。t2.01
2012年

2
@Macro,我同意盲目使用CLT。但是,对于置信区间和要求使用法线数据-而不仅要求使用轻尾数据-会产生严重的过大杀伤力,并且会鼓励使用例如反法线变换,这会使输出的解释更加困难。权衡点在大约正确回答正确问题与准确回答错误问题之间;如果正确的方法涉及比较总体平均值,则使用OLS是正确的方法。p
2012年

2
@来宾,我从不反对OLS。实际上,我认为我的回答很大一部分是,无论采用任何分配假设,OLS都是合理的做法。我也从未争论过必须遵循严格的正态性来进行推理-我的意思是,当您遇到长尾错误时,基于正态近似的推理可能会产生误导(我不确定这在/如何不同意所有这些都与您所说的相符),建议您考虑使用另一种方法(例如,引导程序)。。
2012年

10

我认为您想查看残差的所有属性。

  1. 常态
  2. 恒定方差
  3. 与协变量相关。
  4. 以上的组合

如果它仅是1,并且是由于拖尾或一条粗尾导致的偏斜或偏斜,那么稳健的回归可能是一种很好的方法,也可能是向正态性的转换。如果是非恒定方差,请尝试进行方差稳定化变换或尝试对方差函数建模。如果只有3,则表明涉及该协变量的模型的另一种形式。自举向量或残差的任何问题总是一个选择。


对于1,您能否详细说明重尾残差向正态的转换?
罗伯特·库布里克

2
对数转换或具有小lambda的Box-Cox缩小了尾巴。这可以解决某些繁重且歪斜的分布。我不知道是否有任何转换将适用于非常繁琐的发行版。
Michael Chernick 2012年

3
迈克尔回答很好。我已经开始更加常规地使用引导程序来处理涉及回归估计和一般对比的置信区间,并且在我的R rms包中使此操作变得容易。但是,正如您所建议的那样,即使我们进行自举,找到一种改善方差稳定性并有时改善残差正态性的变换通常也有几个优点。使用“错误”变换进行最小二乘估计可能会非常低效,并且会导致预测中出现较大的平均绝对误差和中间绝对误差。我也喜欢使用半参数回归模型。
Frank Harrell 2012年

2

我的经验与Michael Chernick完全一致。有时应用数据转换不仅会使建模误差呈正态分布,而且还可以纠正异方差性。

对不起,在我看来,实践这种科学/技术会误导别人,例如收集大量数据或采用效率较低的鲁棒回归方法。


1

宏(上面的jsut)指出了正确的答案。只是有点精确,因为我有同样的问题

当残差也是同方差时,残差的正态条件很有用。结果是,OLS在所有估计量之间具有最小的方差(线性非线性)。

扩展的OLS假设:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,是iid
  3. 较大的异常值很少
  4. 你是同性恋
  5. u分布N(0,σ2)

如果通过1-5验证,则OLS在所有估计量之间的差异最小(线性或非线性)

如果仅通过1-4验证,则由高斯-马尔可夫(Gauss-Markov)认为,OLS是最佳线性(仅!)估计量(蓝色)。

资料来源:Stock and Watson,计量经济学+我的课程(EPFL,计量经济学)


y残差中的普通最小二乘法不需要正态性,尽管正态性赋予了某些合意的属性,例如,用于最大似然分析。后者通常用于赤池信息准则。但是,这是不必要的限制,很少会遇到,更正式的要求是等规性而不是正态性,这是幸运的,因为在相反的情况下,y中的普通最小二乘法很少使用。
卡尔

@Carl:严格来说,OLS不需要任何种类,甚至不需要1或2(要求Excel进行回归,也不会问任何问题):正态性是使推理变得有意义的几个属性之一,例如预测,置信度间隔,测试。
PatrickT

@PatrickT计算某些内容的能力没有意义。例如,关于具有柯西分布的值误差的直线的OLS线性回归会增加斜率的CI,并截取几乎允许任何东西截取,它不会返回原始线或斜率。有人可能将其称为Pyrrhic计算。y
卡尔,

我们必须说同样的话。也许您的第一句话的措辞使我感到困惑。
PatrickT

1

对于非正常条件,有时会求助于稳健的回归,尤其是使用方法链接

为了呈现非正态性的上下文,它可能有助于回顾线性OLS回归的假设,这些假设是:

  • 外生性弱。这实质上意味着可以将预测变量x视为固定值,而不是随机变量。例如,这意味着将预测变量假定为无错误,即不受测量错误的污染。此假设是最经常违反的假设,并导致此假设列表中列举的错误。
  • 线性度。这意味着响应变量的平均值是参数(回归系数)和预测变量的线性组合。请注意,此假设的限制远不如最初看起来的限制。因为将预测变量视为固定值(请参见上文),所以线性实际上仅是对参数的限制。预测变量本身可以任意转换,实际上,可以添加同一基础预测变量的多个副本,每个副本的转换方式不同。
  • 恒定方差(又称均方差)。这意味着响应变量的不同值在其误差中具有相同的方差,而不管预测变量的值如何。实际上,如果响应变量可以在较大范围内变化,则该假设无效(即错误是异方差的)。为了检查异构误差方差,或当残差模式违反均模性的模型假设时(对于x的所有点,误差在“最佳拟合线”附近均可变)),因此请谨慎考虑一下残余误差与预测值之间的“扇动效应”。这就是说,相对于预测变量进行绘制时,绝对残差或平方残差将发生系统性变化。错误不会在回归线上平均分布。异方差性将导致对这些点周围的可区别方差求平均,从而得到一个不准确地代表线的所有方差的单个方差。实际上,对于线性回归线上的点的更大和更小的值,残差似乎在它们的预测图上成簇并分散开,并且模型的均方误差将是错误的。
  • 错误的独立性。这假定响应变量的错误彼此不相关。(实际的统计独立性比不存在相关性要强得多,并且经常不需要,尽管可以掌握它可以被利用。可以通过聚类分析和交互作用校正来检验后者。)一些方法(例如广义的最小二乘)能够处理相关误差,尽管它们通常需要大量数据,除非使用某种形式的正则化方法使模型偏向于假设不相关误差。贝叶斯线性回归是处理此问题的一般方法。
  • 误差项与回归变量之间的统计关系在确定估算程序是否具有理想的采样属性(例如无偏且一致)方面起着重要作用。

  • 预测变量x的排列或概率分布对β的估计精度有重大影响。实验的采样和设计是高度发展的统计子领域,它们为收集数据提供了指导,从而可以实现对β的精确估计。

如该答案所示,一条直线的模拟学生分布的轴误差会导致OLS回归线的斜率和截距的置信区间随着自由度()的减小而增大。对于,Student-是柯西分布,并且斜率的置信区间变为。tydfdf=1t(,+)

在产生误差为柯西分布的情况下,就残差而言调用柯西分布是任意的,因为当生成误差是柯西分布时,来自杂散线的数据中的OLS残差将更加不可靠,即,垃圾进-垃圾出。在这种情况下,可以使用Theil-Sen回归回归。对于非正态残差,Theil-Sen当然比OLS更健壮,例如,柯西分布误差不会降低置信区间,并且不同于OLS也是双变量回归,但是在双变量情况下它仍然存在偏差。Passing-Bablok回归可以是更公正的双变量,但不适用于负回归斜率。它最常用于方法比较研究。应该提到戴明回归在这里,与Theil-Sen和Passing-Bablok回归不同,它是双变量问题的实际解决方案,但缺乏其他回归的鲁棒性。可以通过截断数据以包含更多中心值来提高鲁棒性,例如,随机样本共识(RANSAC)是一种从包含异常值的观察数据集中估算数学模型参数的迭代方法。

那么二元回归是什么?缺乏对问题的双变量性质的测试是OLS 回归稀释的最常见原因,并且在此站点的其他地方也都有很好的介绍。在这种情况下,OLS偏见的概念尚未得到很好的认识,例如,参见Longford等人提出的Frost和Thompson。(2001年),它向读者介绍了其他方法,扩展了回归模型以确认变量的可变性,因此不会出现偏差。换句话说,当同时使用和时,有时不能忽略双变量案例回归x1xy-值是随机分布的。可以通过将OLS回归线拟合到数据的OLS回归中的残差来测试是否需要双变量回归。然后,如果OLS残差的斜率非零,则问题是双变量的,数据的OLS回归将具有太浅的斜率幅度,以及截距太大的截距以至于不能代表函数关系在和之间。在这些情况下,的最小误差线性估计量实际上仍将来自OLS回归,并且其R值将处于最大可能值,但OLS回归线将不代表与之相关的实际线函数在和xyy2xy随机变量。作为反例,当在等距的时间序列中发生其他问题时,原始数据的OLS并不总是不合适的,它可能代表最佳的线,但仍然受制于变量转换(例如计数数据),可以取计数的平方根,将泊松分布误差的误差转换为更正常的条件,而仍然应检查残差的非零斜率。 xy=f(x)

  1. 新界朗福德(2001)。“对应”。皇家统计学会杂志,系列A. 164:565。doi10.1111 / 1467-985x.00219
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.