Answers:
您将两种类型的“错误”术语混为一谈。维基百科实际上有一篇文章专门讨论了错误和残差之间的区别。
在OLS回归,残差(你的错误或干扰项的估计确实保证与预测变量是不相关的,假设回归含有截距项。
但是“真实”误差可能与它们相关,这就是内生性。
为简单起见,请考虑一下回归模型(您可能会看到它被描述为底层的“ 数据生成过程 ”或“ DGP”,我们假设该模型是生成的理论模型):
从原则上讲,没有理由在我们的模型中为什么不能与ε相关,但是我们更希望它不以这种方式违反标准OLS假设。例如,可能y依赖于我们的模型中已省略的另一个变量,并且该变量已被并入扰动项(ε是我们除x之外会影响y的所有其他事物的集合)。如果这个被忽略的变量也与x相关,则ε将与x相关,并且我们具有内生性(特别是被省略变量偏差)。
当您根据可用数据估算回归模型时,我们得到
由于的方式OLS作品*,残差ε将是不相关的X。但是,这并不意味着我们必须避免内生性-它只是意味着我们可以不通过分析之间的相关性检测到它,ε和X零,这将是(最高数值误差)。而且由于违反了OLS假设,因此我们不再保证我们拥有良好的属性(如无偏见),因此我们非常喜欢OLS。我们估计β 2会有偏差。
的事实 ε是不相关的 X从“正规方程”我们用它来选择我们最好的估计系数紧随其后。
如果不使用到矩阵设置,我坚持在我的实施例中使用上述的双变量模型中,然后将残差平方和为和找到最优b 1 = β 1和b 2 =,最大限度地减少这个我们发现正规方程,首先对所估计的截距的一阶条件:
这表明残差的总和(从而平均)是零,因此对于之间的协方差的公式ε和任何变量X,然后降低到1。通过考虑估计斜率的一阶条件,我们看到这是零,即
如果用于与基质的工作中,我们可以通过定义概括这对多重回归 ; 一阶状态,以尽量减少小号(b )在最佳b = β是:
这意味着每行,因此每列X,正交于ε。然后,如果设计矩阵X具有构成的列(恰好如果模型具有截距项),就必须有Σ Ñ 我= 1 ε我 = 0所以残差具有零和和零均值。之间的协方差ε和任何变量X再次是1和任何变量X包含在我们的模型中,我们知道这个和为零,因为 ε正交于设计矩阵的每一列。因此,存在零协方差,和零相关,之间 ε和任何预测变量X。
如果你喜欢的东西更几何图,我们的愿望Ÿ在于尽可能接近到Ÿ在毕达哥拉斯的一种方式,而事实上,Ÿ约束到设计矩阵的列空间X,决定了y应该是观察到的y在该列空间上的正交投影。因此残差的矢量ε = ÿ - ÿ是正交的每一列X,包括那些的矢量1个Ñ 如果模型中包含拦截项。如前所述,这意味着残差之和为零,从而使残差矢量与的其他列的正交性确保它与这些预测变量中的每一个都不相关。
但是,我们在这里所做的任何事情都没有说明真正的误差。假设有在我们的模型中的截距项,残差ε仅与不相关的X为其中我们选择了估计回归系数的方式的数学结果β。我们选择的方式β影响我们的预测值Ÿ,因此我们的残差ε = ÿ - ÿ。如果我们选择β用OLS,我们必须解决的正规方程,并且这些强制执行我们的估计残值是不相关的与X。我们的选择 β影响 Ÿ但不ë(Ÿ),因此不强加任何条件对真误差ε=Ÿ-Ë(Ÿ)。这将是认为一个错误 ε莫名其妙地“继承”其uncorrelatedness与X从OLS假设ε应该是不相关的X。不相关性是由正规方程引起的。
数据生成过程为:
如果我们跑了回归,我们将得到的估计一,b 1和b 2,和有足够的数据,他们将汇聚一,b 1和b 2分别。
(技术说明:我们需要一点随机性,因此在每次造访杂货店时,我们不会为每个汉堡买正好一个面包。如果这样做,和x 2将是共线的。)
现在让我们考虑一下模型:
观察到。因此 Cov (x 1,u )
这是零吗?几乎可以肯定不!汉堡和小圆面包x 2的购买几乎可以肯定是相关的!因此,u和x 1是相关的!
如果您尝试运行:
你估计b 1几乎可以肯定将是一个贫穷的估计b 1,因为OLS回归估计一,b,ù将被修建使ü和X 1的样品中是不相关的。但是实际u与总体中的x 1相关!
如果您这样做,在实践中会发生什么?你估计b 1汉堡包的价格会ALSO皮卡包子的价格。假设您每次购买1 美元的汉堡时都倾向于购买0.50 美元的小圆面包(但并非每次都这样)。您估计汉堡的价格可能是1.40 美元。您将在对汉堡价格的估计中选择汉堡频道和面包频道。
假设我们正在建立动物体重在其高度上的回归。显然,海豚的体重与大象或蛇的体重会有所不同(以不同的程序使用不同的仪器)。这意味着模型误差将取决于高度,即解释变量。他们可能以许多不同的方式依赖。例如,也许我们倾向于略微高估大象的重量而略微低估蛇的重量,等等。
因此,在这里我们确定,很容易以错误与解释变量相关的情况结束。现在,如果我们忽略了这一点,并着手回归像往常一样,我们会发现,回归残差是不相关的设计矩阵。这是因为通过设计回归可以强制残差不相关。请注意,也是残差是没有的错误,他们的估计错误。因此,无论误差本身是否与自变量相关,误差估计(残差)都将通过回归方程解的构建而互不相关。