线性回归的通常假设是什么?
它们是否包括:
- 自变量和因变量之间的线性关系
- 独立错误
- 错误的正态分布
- 同调性
还有其他吗?
线性回归的通常假设是什么?
它们是否包括:
还有其他吗?
Answers:
答案很大程度上取决于您如何定义完整和常规的内容。假设我们以以下方式编写线性回归模型:
其中是预测变量的向量,是相关参数,是响应变量,是干扰。的可能估计之一是最小二乘估计:
现在,几乎所有的教科书都处理这些假设,前提是该估计具有理想的属性,例如无偏性,一致性,效率,某些分布属性等。
这些属性中的每一个都需要某些假设,而这些假设是不相同的。因此,更好的问题是询问LS估计的所需属性需要哪些假设。
我上面提到的属性需要一些回归概率模型。在这种情况下,我们会在不同的应用领域中使用不同的模型。
最简单的情况是将视为独立的随机变量,其中为非随机变量。我不喜欢“惯常”一词,但是可以说,这是大多数应用领域中的惯常情况(据我所知)。
以下是一些统计估计值的理想属性:
存在
存在属性可能看起来很奇怪,但这很重要。在的定义中,我们将矩阵求逆
对于所有可能变体,不能保证存在此矩阵的逆。因此,我们立即得到了第一个假设:
矩阵应该是完整等级,即可逆。
无偏见
如果
我们有
我们可以用第二种假设来编号,但是我们可能已经直言不讳,因为这是定义线性关系的自然方法之一。
请注意,为了获得公正,我们仅要求对于所有,并且是常数。不需要独立属性。
一致性
为了获得一致性的假设,我们需要更清楚地说明是什么意思。对于随机变量序列,我们有不同的收敛模式:在概率上,几乎可以肯定地,在分布和阶矩意义上。假设我们要获得概率收敛。我们可以使用大数定律,也可以直接使用多元Chebyshev不等式(利用的事实):
(此不等式的变体直接来自将Markov不等式应用于,请注意 。)
由于概率收敛意味着左边项必须消失任何为,我们需要作为。这是完全合理的,因为随着更多的数据,我们估计的精度应该增加。
我们有
独立性确保,因此表达式简化为
现在假设,然后
现在,如果我们另外要求对每个限制,我们将立即得到
因此,为了获得一致性,我们假设不存在自相关(),方差是恒定的,并且不会增长太多。如果来自独立样本,则满足第一个假设。
效率
经典结果是高斯-马尔可夫定理。它的条件恰恰是一致性的前两个条件和无偏的条件。
分布特性
如果是正常的,我们立即得到是正常的,因为它是正常随机变量的线性组合。如果我们假设先前的独立性,不相关性和恒定方差假设,则得出
,其中。
如果不是正态而是独立的,则由于中心极限定理,我们可以获得近似分布。为此,我们需要假定
对于一些矩阵。如果我们假设则不需要渐进正态性的常数方差
请注意,使用的常数方差,我们有。然后,中心极限定理给我们以下结果:
因此,从中我们可以看到独立性和恒定方差以及某些假设为LS估计提供了许多有用的属性。
问题是这些假设可以放宽。例如,我们要求不能为随机变量。该假设在计量经济学应用中不可行。如果我们让是随机的,那么使用条件期望并考虑的随机性,我们可以获得类似的结果。独立性假设也可以放宽。我们已经证明,有时只需要不相关。甚至可以进一步放宽,并且仍然有可能表明LS估计将是一致且渐近正常的。有关更多详细信息,请参见例如White的书。
这里有很多好的答案。在我看来,有一个假设尚未阐明(至少没有明确指出)。具体来说,回归模型假定(解释性变量/预测变量的值)是固定的并且是已知的,并且情况中的所有不确定性都存在于变量内。另外,该不确定性仅假定为采样误差。
可以通过以下两种方法进行思考:如果要构建解释性模型(对实验结果进行建模),则您将确切地知道自变量的级别,因为您已经对其进行了操作/管理。此外,您在开始收集数据之前就决定了这些级别。因此,您正在将响应中存在的所有不确定性概念化。另一方面,如果您正在构建预测模型,则情况确实有所不同,但是您仍将预测因子视为固定且已知的,因为将来在使用模型进行预测时关于的可能值,您将有一个向量,并且该模型旨在将这些值视为正确。也就是说,您将不确定性视为的未知值。
这些假设可以在原型回归模型的方程式中看到: 具有不确定性(可能由于测量误差而定)的模型也可能具有相同的数据生成过程,但是该模型估计如下所示: 其中代表随机测量误差。(后者的情况导致对变量模型中的错误进行研究;基本结果是,如果存在测量错误,则朴素
在典型的假设不对称内在的一个实际后果是,回归在是回归不同上。(在这里查看我的答案:对x的y进行线性回归与对y的x进行线性回归有什么区别?有关此事实的详细讨论。)
经典线性回归模型的假设包括:
尽管此处的答案已经很好地概述了经典OLS假设,但是您可以在此处找到对经典线性回归模型的假设的更全面描述:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
此外,本文还介绍了违反某些假设的后果。
是什么赋予了?!
答案是,可以使用一些不同的假设集来证明使用普通最小二乘(OLS)估计是合理的。OLS是像锤子这样的工具:您可以在钉子上使用锤子,但也可以在钉子上使用它,分解冰块等。
两大类假设是适用于小样本的假设和依赖于大样本的假设,因此可以应用中心极限定理。
Hayashi(2000)中讨论的小样本假设是:
在(1)-(4)下,应用高斯-马尔可夫定理,而普通最小二乘估计器是最佳线性无偏估计器。
进一步假设正常误差项可以进行假设检验。如果误差项在条件上是正态的,则OLS估计量的分布也在条件上是正态的。
另一个值得注意的一点是,在正常情况下,OLS估计器也是最大似然估计器。
如果我们有足够大的样本,则可以修改/放松这些假设,以便我们可以依赖于大数定律(以确保OLS估计量的一致性)和中心极限定理(以使OLS估计量的采样分布收敛于正态分布,我们可以进行假设检验,讨论p值等...)。
Hayashi是一位宏观经济学专家,他的大量假设假设是在考虑时间序列的情况下制定的:
您可能会遇到这些假设的增强版本,例如,错误项是独立的。
适当的大样本假设可让您获得渐近正态分布的OLS估计量的采样分布。
Hayashi,Fumio,2000,计量经济学
以下是线性回归分析的假设。
正确的规格。线性功能形式已正确指定。
严格的外生性。回归中的错误的条件均值应为零。
没有多重共线性。X中的回归变量必须全部线性独立。
均方差,这意味着误差项在每个观察值中具有相同的方差。
无自相关:观测值之间的误差不相关。
常态。有时还假定误差具有回归变量的正态分布。
Iid观察结果:与所有都独立于,并且具有相同的分布。
有关更多信息,请访问此页面。
没有一个假设列表,至少有2个假设:一个是固定的,一个是随机设计的矩阵。另外,您可能希望查看时间序列回归的假设(请参阅第13页)
当设计矩阵的情况下,是固定的可能是最常见的一种,它的假设往往表现为一个高斯-马尔科夫定理。固定的设计意味着您可以真正控制回归器。例如,您进行实验并可以设置温度,压力等参数。另请参阅此处的第 13页。
不幸的是,在经济学等社会科学中,您几乎无法控制实验的参数。通常,您观察经济状况,记录环境指标,然后对它们进行回归。事实证明,这是一个非常不同且更困难的情况,称为随机设计。在这种情况下,对高斯-马尔可夫定理进行了修改,另请参见此处的第 12页。您可以看到条件现在是如何用条件概率表示的,这不是一个无害的更改。
在计量经济学中,这些假设具有以下名称:
请注意,我从未提及常态。这不是一个标准的假设。它通常在入门回归课程中使用,因为它使某些推导更容易,但不需要回归工作并具有良好的属性。
线性的假设是模型的参数是线性的。只要自变量的幂函数是线性加性模型的一部分,就可以使用具有二次或更高阶效应的回归模型。如果模型在应有的时候不包含高阶项,则残差图中会明显显示出拟合不足。但是,标准回归模型不包含将自变量提高到参数的幂的模型(尽管可以使用其他方法来评估此类模型)。这样的模型包含非线性参数。
最小二乘回归系数提供了一种汇总任何类型数据中一阶趋势的方法。@mpiktas的答案是对最小二乘越来越理想的条件的彻底处理。我想采用另一种方法,并在最小二乘有效时显示最一般的情况。让我们看一下最小二乘方程的最一般的表述:
它只是响应的条件均值的线性模型。
注意,我反对错误术语。如果您想总结的不确定性,那么您必须诉诸中心极限定理。满足Lindeberg条件时,最通用的最小二乘估计类收敛于法线:归纳起来,最小二乘的Lindeberg条件要求最大平方残差与残差平方和之和的分数必须为0,因为。如果您的设计将继续对越来越大的残差进行采样,那么该实验将“死于水中”。
满足Lindeberg条件时,将很好地定义回归参数,并且估算器是具有已知近似分布的无偏估算器。可能存在更有效的估算器。在异方差或相关数据的其他情况下,通常使用加权估计量更为有效。这就是为什么当有更好的方法可用时,我永远不提倡使用朴素的方法的原因。但是他们往往不是!