回归误差项如何与解释变量相关联?


22

此第一句维基页权利要求书,“在计量经济学,当说明变量与误差项相关发生内生性问题。1

我的问题是,这怎么可能发生?是否不选择回归beta以使误差项与设计矩阵的列空间正交?


9
选择回归beta,以使残差正交于设计矩阵的列空间。如果误差项与设计矩阵的列空间不正交,那么这会给真实的beta带来可怕的估计!(即,如果您的模型不满足通过回归一致地估计系数所需的假设)。
马修·冈恩

3
误差项和设计矩阵的列空间的正交性不是您的估计方法的属性(例如,普通最小二乘回归),而是模型的属性(例如,yi=a+bxi+ϵi)。
马修·冈恩

我认为您的编辑应该是一个新问题,因为您似乎已经在本质上改变了您的要求。您可以随时链接回此链接。(我认为您也应该措辞更好-写“效果会是什么”时,我不清楚效果是什么?)请注意,提出一个新问题通常会引起更多关注,这将是一个优势供您编辑现有的文件。
银鱼'18

Answers:


28

您将两种类型的“错误”术语混为一谈。维基百科实际上有一篇文章专门讨论了错误和残差之间的区别。

在OLS回归,残差(你的错误或干扰项的估计确实保证与预测变量是不相关的,假设回归含有截距项。ε^

但是“真实”误差可能与它们相关,这就是内生性。ε

为简单起见,请考虑一下回归模型(您可能会看到它被描述为底层的“ 数据生成过程 ”或“ DGP”,我们假设该模型是生成的理论模型):y

yi=β1+β2xi+εi

从原则上讲,没有理由在我们的模型中为什么不能与ε相关,但是我们更希望它不以这种方式违反标准OLS假设。例如,可能y依赖于我们的模型中已省略的另一个变量,并且该变量已被并入扰动项(ε是我们除x之外会影响y的所有其他事物的集合)。如果这个被忽略的变量也与x相关,则ε将与x相关,并且我们具有内生性(特别是被省略变量偏差)。xεyεxyxεx

当您根据可用数据估算回归模型时,我们得到

yi=β^1+β^2xi+ε^i

由于的方式OLS作品*,残差ε将是不相关的X。但是,这并不意味着我们必须避免内生性-它只是意味着我们可以不通过分析之间的相关性检测到它,εX零,这将是(最高数值误差)。而且由于违反了OLS假设,因此我们不再保证我们拥有良好的属性(如无偏见),因此我们非常喜欢OLS。我们估计β 2会有偏差。ε^xε^xβ^2


的事实 ε是不相关的 X从“正规方程”我们用它来选择我们最好的估计系数紧随其后。()ε^x

如果不使用到矩阵设置,我坚持在我的实施例中使用上述的双变量模型中,然后将残差平方和为和找到最优b 1 = β 1b 2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1,最大限度地减少这个我们发现正规方程,首先对所估计的截距的一阶条件:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

这表明残差的总和(从而平均)是零,因此对于之间的协方差的公式ε和任何变量X,然后降低到1ε^x。通过考虑估计斜率的一阶条件,我们看到这是零,即1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

如果用于与基质的工作中,我们可以通过定义概括这对多重回归 ; 一阶状态,以尽量减少小号b 在最佳b = β是:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

这意味着每行,因此每列X,正交于ε。然后,如果设计矩阵X具有构成的列(恰好如果模型具有截距项),就必须有Σ Ñ = 1 ε = 0所以残差具有零和和零均值。之间的协方差ε和任何变量X再次是1XXε^X一世=1个ñε^一世=0ε^X和任何变量X包含在我们的模型中,我们知道这个和为零,因为 ε正交于设计矩阵的每一列。因此,存在零协方差,和零相关,之间 ε和任何预测变量X1个ñ-1个一世=1个ñX一世ε^一世Xε^ε^X

如果你喜欢的东西更几何图,我们的愿望Ÿ在于尽可能接近到Ÿ在毕达哥拉斯的一种方式,而事实上,Ÿ约束到设计矩阵的列空间X,决定y应该是观察到的y在该列空间上的正交投影。因此残差的矢量ε = ÿ - ÿ是正交的每一列X,包括那些的矢量1个Ñÿ^ÿ y^Xy^yε^=yy^X1n如果模型中包含拦截项。如前所述,这意味着残差之和为零,从而使残差矢量与的其他列的正交性确保它与这些预测变量中的每一个都不相关。X

多元回归主题空间中的向量

但是,我们在这里所做的任何事情都没有说明真正的误差。假设有在我们的模型中的截距项,残差ε仅与不相关的X为其中我们选择了估计回归系数的方式的数学结果β我们选择的方式β影响我们的预测值Ÿ,因此我们的残差ε = ÿ - ÿ。如果我们选择β用OLS,我们必须解决的正规方程,并且这些强制执行我们的估计残值εε^xβ^β^y^ε^=yy^β^是不相关的与X。我们的选择 β影响 Ÿ但不ëŸ,因此不强加任何条件对真误差ε=Ÿ-ËŸ。这将是认为一个错误 ε莫名其妙地“继承”其uncorrelatedness与X从OLS假设ε应该是不相关的X。不相关性是由正规方程引起的。ε^xβ^y^E(y)ε=yE(y)ε^xεx


1
平均使用人口数据回归?或究竟是什么意思?yi=β1+β2xi+εi
北部的

@ user1559897是的,有些教科书将其称为“人口回归线”或PRL。这是人口的基本理论模型。您可能还会在某些来源中看到这个称为“数据生成过程”的信息。(我倾向于谨慎地说这是“人口回归” ...如果您对人口有限(例如美国的50个州)进行回归,那么这不是真的如果您实际上是在软件中的某些数据上进行总体计算,那么您实际上是在用“帽子”谈论回归的估计版本)
Silverfish

我想我明白你在说什么。如果我理解正确,在模型中的误差项可以具有非零预期以及因为它是一种理论上的生成处理,而不是一个OLS回归。yi=β1+β2xi+εi
在北部的

从统计推断的角度来看,这是一个很好的答案。如果主要关注预测准确性,您会如何看待?请参阅帖子的编辑。
北部的

16

简单的例子:

  • 是我买的访问汉堡的数量xi,1i
  • 是我购买的bun头的数量。xi,2
  • 为汉堡的价格b1
  • 为小圆面包的价格。b2
  • 与购买汉堡包和面包无关,我让我随机花费,其中a是标量,ϵ i是平均零随机变量。我们有E [ ϵ i | X ] = 0a+ϵiaϵiE[ϵi|X]=0
  • 是我上了一趟杂货店的开支。yi

数据生成过程为:

yi=a+b1xi,1+b2xi,2+ϵi

如果我们跑了回归,我们将得到的估计b 1b 2,和有足够的数据,他们将汇聚b 1b 2分别。a^b^1b^2ab1b2

(技术说明:我们需要一点随机性,因此在每次造访杂货店时,我们不会为每个汉堡买正好一个面包。如果这样做,x 2将是共线的。)x1x2

省略变量偏差的示例:

现在让我们考虑一下模型:

yi=a+b1xi,1+ui

观察到。因此 Cov x 1u ui=b2xi,2+ϵi

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

这是零吗?几乎可以肯定不!汉堡和小圆面包x 2的购买几乎可以肯定是相关的!因此,ux 1是相关的!x1x2ux1

如果您尝试运行回归会怎样?

如果您尝试运行:

yi=a^+b^1xi,1+u^i

你估计b 1几乎可以肯定将是一个贫穷的估计b 1,因为OLS回归估计bù将被修建使üX 1的样品中是不相关的。但是实际u与总体中的x 1相关!b^1b1a^,b^,u^u^x1ux1

如果您这样做,在实践中会发生什么?你估计b 1汉堡包的价格会ALSO皮卡包子的价格。假设您每次购买1 美元的汉堡时都倾向于购买0.50 美元的小圆面包(但并非每次都这样)。您估计汉堡的价格可能是1.40 美元。您将在对汉堡价格的估计中选择汉堡频道和面包频道。b^1


我喜欢你的汉堡面包的例子。您从统计推断的角度解释了问题,即推断汉堡对价格的影响。只是想知道如果我只关心预测(即对测试数据集的预测MSE)会带来什么影响?直觉是它不会那么好,但是有什么理论可以使它更精确吗?(这引入了更多的偏见,但差异较小,因此总体效果对我而言并不明显。)
北部的居民,

1
@ user1559897如果你只关心预测的支出,然后使用预测汉堡的数量和花费估计b 1围绕$ 1.40可能工作得很好。如果您有足够的数据,那么使用汉堡 bun头的数量无疑会更好。在简短的样本中,L 1正则化(LASSO)可能会将系数b 1b 2之一发送为零。我认为您正确地认识到您在回归中所做的工作是在估计条件期望函数。我的观点是,该函数可以捕获因果关系,因此需要其他假设。b^1L1b1b2
马修·冈恩(Matthew Gunn)'18

3

假设我们正在建立动物体重在其高度上的回归。显然,海豚的体重与大象或蛇的体重会有所不同(以不同的程序使用不同的仪器)。这意味着模型误差将取决于高度,即解释变量。他们可能以许多不同的方式依赖。例如,也许我们倾向于略微高估大象的重量而略微低估蛇的重量,等等。

因此,在这里我们确定,很容易以错误与解释变量相关的情况结束。现在,如果我们忽略了这一点,并着手回归像往常一样,我们会发现,回归残差不相关的设计矩阵。这是因为通过设计回归可以强制残差不相关。请注意,也是残差没有错误,他们的估计错误。因此,无论误差本身是否与自变量相关,误差估计(残差)都将通过回归方程解的构建而互不相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.