线性回归通常假设的完整清单是什么?


72

线性回归的通常假设是什么?

它们是否包括:

  1. 自变量和因变量之间的线性关系
  2. 独立错误
  3. 错误的正态分布
  4. 同调性

还有其他吗?


3
你可以找到威廉·贝瑞的小书“了解回归假设”一个相当完整的列表:books.google.com/books/about/...

3
尽管受访者列出了一些不错的资源,但是用这种格式回答这个问题很困难,而且(很多)书都专门讨论了这个主题。没有烹饪书,也没有给出线性回归可以涵盖的各种潜在情况。
Andy W

3
从技术上讲,(普通)线性回归是形式为, iid的模型。这个简单的数学陈述包含所有假设。这使我想起@Andy W,也许您是从回归的艺术和实践的角度更广泛地解释这个问题。您对此的进一步思考可能对您有用。ÿ E[Yi]=XiβYi
ub

2
@Andy WI并未试图暗示您的解释不正确。您的评论提出了一种超越技术假设的思考方式,可能指向有效解释回归结果所需的条件。不必写任何论文作为回应,但是即使是一些更广泛问题的清单也可能很有启发性,并且可能会扩展该主题的范围和兴趣。
ub

1
@whuber,如果这意味着对于不同的,均值是不同的,因此不能为iid :)ÿ EYi=XiβiYi
mpiktas 2011年

Answers:


78

答案很大程度上取决于您如何定义完整和常规的内容。假设我们以以下方式编写线性回归模型:

yi=xiβ+ui

其中是预测变量的向量,是相关参数,是响应变量,是干扰。的可能估计之一是最小二乘估计: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

现在,几乎所有的教科书都处理这些假设,前提是该估计具有理想的属性,例如无偏性,一致性,效率,某些分布属性等。β^

这些属性中的每一个都需要某些假设,而这些假设是不相同的。因此,更好的问题是询问LS估计的所需属性需要哪些假设。

我上面提到的属性需要一些回归概率模型。在这种情况下,我们会在不同的应用领域中使用不同的模型。

最简单的情况是将视为独立的随机变量,其中为非随机变量。我不喜欢“惯常”一词,但是可以说,这是大多数应用领域中的惯常情况(据我所知)。yixi

以下是一些统计估计值的理想属性:

  1. 估计存在。
  2. 不偏不倚:。Eβ^=β
  3. 一致性:为(是数据样本的大小)。β^βnn
  4. 效率:对于的替代估计,小于。Var(β^)Var(β~)β~β
  5. 近似或计算的分布函数的能力。β^

存在

存在属性可能看起来很奇怪,但这很重要。在的定义中,我们将矩阵求逆 β^xixi.

对于所有可能变体,不能保证存在此矩阵的逆。因此,我们立即得到了第一个假设:xi

矩阵应该是完整等级,即可逆。xixi

无偏见

如果 我们有

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

我们可以用第二种假设来编号,但是我们可能已经直言不讳,因为这是定义线性关系的自然方法之一。

请注意,为了获得公正,我们仅要求对于所有,并且是常数。不需要独立属性。Eyi=xiβixi

一致性

为了获得一致性的假设,我们需要更清楚地说明是什么意思。对于随机变量序列,我们有不同的收敛模式:在概率上,几乎可以肯定地,在分布和阶矩意义上。假设我们要获得概率收敛。我们可以使用大数定律,也可以直接使用多元Chebyshev不等式(利用的事实):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(此不等式的变体直接来自将Markov不等式应用于,请注意 。)β^β2Eβ^β2=TrVar(β^)

由于概率收敛意味着左边项必须消失任何为,我们需要作为。这是完全合理的,因为随着更多的数据,我们估计的精度应该增加。ε>0nVar(β^)0nβ

我们有

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

独立性确保,因此表达式简化为 Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

现在假设,然后 Var(yi)=const

Var(β^)=(xixi)1Var(yi).

现在,如果我们另外要求对每个限制,我们将立即得到 1nxixin

Var(β)0 as n.

因此,为了获得一致性,我们假设不存在自相关(),方差是恒定的,并且不会增长太多。如果来自独立样本,则满足第一个假设。Cov(yi,yj)=0Var(yi)xiyi

效率

经典结果是高斯-马尔可夫定理。它的条件恰恰是一致性的前两个条件和无偏的条件。

分布特性

如果是正常的,我们立即得到是正常的,因为它是正常随机变量的线性组合。如果我们假设先前的独立性,不相关性和恒定方差假设,则得出 ,其中。yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

如果不是正态而是独立的,则由于中心极限定理,我们可以获得近似分布。为此,我们需要假定 对于一些矩阵。如果我们假设则不需要渐进正态性的常数方差 yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

请注意,使用的常数方差,我们有。然后,中心极限定理给我们以下结果:yB=σ2A

n(β^β)N(0,A1BA1).

因此,从中我们可以看到独立性和恒定方差以及某些假设为LS估计提供了许多有用的属性。yixiβ^

问题是这些假设可以放宽。例如,我们要求不能为随机变量。该假设在计量经济学应用中不可行。如果我们让是随机的,那么使用条件期望并考虑的随机性,我们可以获得类似的结果。独立性假设也可以放宽。我们已经证明,有时只需要不相关。甚至可以进一步放宽,并且仍然有可能表明LS估计将是一致且渐近正常的。有关更多详细信息,请参见例如White的书xixixi


关于高斯-马尔可夫定理的评论。它仅说明OLS比作为数据线性函数的其他估计量更好。但是,许多常用的估计器(尤其是最大似然(ML))不是数据的线性函数,并且在高斯-马尔可夫定理的条件下可能比OLS更有效。
彼得·韦斯特伦

@PeterWestfall对于高斯正常错误,MLE是OLS :)而且您无法获得比MLE更有效的效率。在这篇文章中,我尝试以数学上的细节保持清淡。
mpiktas

1
我的观点是,当GM条件成立时,在非正态分布下有比OLS更有效的估计量。GM对于在非正态下OLS是“好”的说法基本上是没有用的,因为在非正态情况下最好的估计器是数据的非线性函数。
彼得·韦斯特伦

@mpiktas因此,要么我们将视为非随机变量,然后使用估算器要么我们将视为随机变量,并使用估算器吗?xY^xY|x^
Parthiban Rajendran '18

16

这里有很多好的答案。在我看来,有一个假设尚未阐明(至少没有明确指出)。具体来说,回归模型假定(解释性变量/预测变量的值)是固定的并且是已知的,并且情况中的所有不确定性都存在于变量内。另外,该不确定性仅假定为采样误差XY

可以通过以下两种方法进行思考:如果要构建解释性模型(对实验结果进行建模),则您将确切地知道自变量的级别,因为您已经对其进行了操作/管理。此外,您在开始收集数据之前就决定了这些级别。因此,您正在将响应中存在的所有不确定性概念化。另一方面,如果您正在构建预测模型,则情况确实有所不同,但是您仍将预测因子视为固定且已知的,因为将来在使用模型进行预测时关于的可能值,您将有一个向量yx,并且该模型旨在将这些值视为正确。也就是说,您将不确定性视为的未知值。 y

这些假设可以在原型回归模型的方程式中看到: 具有不确定性(可能由于测量误差而定)的模型也可能具有相同的数据生成过程,但是该模型估计如下所示: 其中代表随机测量误差。(后者的情况导致对变量模型中的错误进行研究;基本结果是,如果存在测量错误,则朴素

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1将会衰减-比其真实值更接近于0,并且如果存在测量误差,则的统计测试将功率不足,但否则不会产生偏差。) yβ^

在典型的假设不对称内在的一个实际后果是,回归在是回归不同上。(在这里查看我的答案:对x的y进行线性回归与对y的x进行线性回归有什么区别?有关此事实的详细讨论。)yxxy


“固定”是什么意思?用简单的语言“随机”?以及如何区分固定效应和随机效应?我认为在我的设计中,有1个固定已知因子和5个级别。对?
stan 2012年

1
@stan,我知道您的困惑。统计中的术语通常令人困惑且无益。在这种情况下,“固定”是不太一样的固定在“固定效应和随机效应”(尽管它们是相关的)。在这里,我们不是在谈论效果,而是在谈论数据,即您的预测变量/解释变量。了解固定数据的想法的最简单方法是考虑计划的实验。在做任何事情之前,在设计实验时,您要确定解释的水平,而在此过程中不会发现它们。XX
gung

W /预测建模并非如此,但是将来,当我们使用模型进行预测时,我们将以这种方式处理数据。X
gung

为什么β和ε在最下面的方程式中有一个帽子,而在最上面的方程式中却没有?
user1205901 2015年

2
@ user1205901,最上面的模型是数据生成过程,最下面的是您对它的估计。
gung

8

经典线性回归模型的假设包括:

  1. 线性参数和正确的模型规格
  2. X矩阵的全等级
  3. 解释变量必须是外生的
  4. 独立且完全相同的错误条款
  5. 总体中的正态分布误差项

尽管此处的答案已经很好地概述了经典OLS假设,但是您可以在此处找到对经典线性回归模型的假设的更全面描述:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

此外,本文还介绍了违反某些假设的后果。


6

可以使用不同的假设来证明OLS的合理性

  • 在某些情况下,作者测试残差的正态性。
    • 但是在其他情况下,残差并不正常,因此作者还是使用OLS!
  • 您会看到文本说同性恋是假设。
    • 但是您会看到研究人员在违反同调性时使用OLS。

是什么赋予了?!

答案是,可以使用一些不同的假设集来证明使用普通最小二乘(OLS)估计是合理的。OLS是像锤子这样的工具:您可以在钉子上使用锤子,但也可以在钉子上使用它,分解冰块等。

两大类假设是适用于小样本的假设和依赖于大样本的假设,因此可以应用中心极限定理

1.小样本假设

Hayashi(2000)中讨论的小样本假设是:

  1. 线性度
  2. 严格的外生性
  3. 无多重共线性
  4. 球面误差(均方差)

在(1)-(4)下,应用高斯-马尔可夫定理,而普通最小二乘估计器是最佳线性无偏估计器。

  1. 错误项的正态性

进一步假设正常误差项可以进行假设检验。如果误差项在条件上是正态的,则OLS估计量的分布也在条件上是正态的。

另一个值得注意的一点是,在正常情况下,OLS估计器也是最大似然估计器

2.大样本假设

如果我们有足够大的样本,则可以修改/放松这些假设,以便我们可以依赖于大数定律(以确保OLS估计量的一致性)和中心极限定理(以使OLS估计量的采样分布收敛于正态分布,我们可以进行假设检验,讨论p值等...)。

Hayashi是一位宏观经济学专家,他的大量假设假设是在考虑时间序列的情况下制定的:

  1. 线性度
  2. 遍历平稳
  3. 预定的回归变量:误差项与其同期误差项正交。
  4. E[xx]已评级
  5. xiϵi是具有有限第二矩的mar差序列
  6. 回归器的有限第四矩

您可能会遇到这些假设的增强版本,例如,错误项是独立的。

适当的大样本假设可让您获得渐近正态分布的OLS估计量的采样分布。

参考文献

Hayashi,Fumio,2000,计量经济学


5

这就是您要对模型执行的全部操作。想象一下您的错误是否正偏斜/非正常。如果您想设定一个预测间隔,可以比使用t分布做得更好。同样,如果在较小的预测值下方差较小,那么您的预测间隔将太大。

最好理解为什么存在这些假设。


4

下图显示了在有限和渐近情形中需要哪些假设才能获得哪些含义。

有限OLS假设

渐近OLS假设

我认为重要的是,不仅要考虑这些假设,而且还要考虑这些假设的含义。例如,如果您只在乎具有无偏系数,那么就不需要同方差。


2

以下是线性回归分析的假设。

正确的规格。线性功能形式已正确指定。

严格的外生性。回归中的错误的条件均值应为零。

没有多重共线性。X中的回归变量必须全部线性独立。

均方差,这意味着误差项在每个观察值中具有相同的方差。

无自相关:观测值之间的误差不相关。

常态。有时还假定误差具有回归变量的正态分布。

Iid观察结果:与所有都独立于,并且具有相同的分布。(xi,yi)(xj,yj)ij

有关更多信息,请访问此页面


4
与其说“没有多重共线性”,不如说是“没有线性依赖性”。共线性经常被用作连续而非分类的度量。只有严格或严格的共线性才被禁止。
彼得·富勒姆

2
时间序列回归呢?广义最小二乘呢?如果我们只关心最小二乘估计的一致性和渐近正态性,那么实际上最后的四个假设可能过于严格,您的清单就有点像诫命清单。
mpiktas 2011年

1
多重共线性带来了解释上的问题(与某些参数的可识别性有关),但这绝对不是线性回归模型的标准假设。 多重共线性主要是一个计算问题,但也引起了类似的解释问题。
Whuber

@whuber和Peter Flom:正如我在古吉拉特语书中第75页所读到的那样。65-75。tiny.cc/cwb2g 它将“无多重共线性”作为回归分析的假设。
love-stats

@mpiktas:如果您在答案中访问给定的URL,则将发现有关时间序列回归的假设。
love-stats

2

没有一个假设列表,至少有2个假设:一个是固定的,一个是随机设计的矩阵。另外,您可能希望查看时间序列回归的假设(请参阅第13页)

当设计矩阵的情况下,是固定的可能是最常见的一种,它的假设往往表现为一个高斯-马尔科夫定理。固定的设计意味着您可以真正控制回归器。例如,您进行实验并可以设置温度,压力等参数。另请参阅此处的第 13页。X

不幸的是,在经济学等社会科学中,您几乎无法控制实验的参数。通常,您观察经济状况,记录环境指标,然后对它们进行回归。事实证明,这是一个非常不同且更困难的情况,称为随机设计。在这种情况下,对高斯-马尔可夫定理进行了修改,另请参见此处的第 12页。您可以看到条件现在是如何用条件概率表示的,这不是一个无害的更改。

在计量经济学中,这些假设具有以下名称:

  • 线性度
  • 严格的外生性
  • 没有多重共线性
  • 球形误差方差(包括均方差和无相关性)

请注意,我从未提及常态。这不是一个标准的假设。它通常在入门回归课程中使用,因为它使某些推导更容易,但不需要回归工作并具有良好的属性。


1

线性的假设是模型的参数是线性的。只要自变量的幂函数是线性加性模型的一部分,就可以使用具有二次或更高阶效应的回归模型。如果模型在应有的时候不包含高阶项,则残差图中会明显显示出拟合不足。但是,标准回归模型不包含将自变量提高到参数的幂的模型(尽管可以使用其他方法来评估此类模型)。这样的模型包含非线性参数。


1

最小二乘回归系数提供了一种汇总任何类型数据中一阶趋势的方法。@mpiktas的答案是对最小二乘越来越理想的条件的彻底处理。我想采用另一种方法,并在最小二乘有效时显示最一般的情况。让我们看一下最小二乘方程的最一般的表述:

E[Y|X]=α+βX

它只是响应的条件均值的线性模型。

注意,我反对错误术语。如果您想总结的不确定性,那么您必须诉诸中心极限定理。满足Lindeberg条件时,最通用的最小二乘估计类收敛于法线:归纳起来,最小二乘的Lindeberg条件要求最大平方残差与残差平方和之和的分数必须为0,因为。如果您的设计将继续对越来越大的残差进行采样,那么该实验将“死于水中”。βn

满足Lindeberg条件时,将很好地定义回归参数,并且估算器是具有已知近似分布的无偏估算器。可能存在更有效的估算器。在异方差或相关数据的其他情况下,通常使用加权估计量更为有效。这就是为什么当有更好的方法可用时,我永远不提倡使用朴素的方法的原因。但是他们往往不是!ββ^


1
对于计量经济学家:值得指出的是,这种情况意味着严格的外生性,因此在条件均值模型中无需将严格的外生性作为假设。从数学上来说,这是自动的。(此处是在讨论理论,而不是估计。)
Peter Westfall '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.