22

此第一句维基页权利要求书，“在计量经济学，当说明变量与误差项相关发生内生性问题。1 ”

我的问题是，这怎么可能发生？是否不选择回归beta以使误差项与设计矩阵的列空间正交？

regression

— 北方的居民
source

9

选择回归beta，以使残差正交于设计矩阵的列空间。如果误差项与设计矩阵的列空间不正交，那么这会给真实的beta带来可怕的估计！（即，如果您的模型不满足通过回归一致地估计系数所需的假设）。

— 马修·冈恩

3

误差项和设计矩阵的列空间的正交性不是您的估计方法的属性（例如，普通最小二乘回归），而是模型的属性（例如，

y_{i} = a + b x_{i} + ϵ_{i}

$y_i = a + b x_i + \epsilon_i$ ）。

— 马修·冈恩

我认为您的编辑应该是一个新问题，因为您似乎已经在本质上改变了您的要求。您可以随时链接回此链接。（我认为您也应该措辞更好-写“效果会是什么”时，我不清楚效果是什么？）请注意，提出一个新问题通常会引起更多关注，这将是一个优势供您编辑现有的文件。

— 银鱼'18

28

您将两种类型的“错误”术语混为一谈。维基百科实际上有一篇文章专门讨论了错误和残差之间的区别。

在OLS回归，残差（你的错误或干扰项的估计确实保证与预测变量是不相关的，假设回归含有截距项。 $\hat \varepsilon$

但是“真实”误差可能与它们相关，这就是内生性。 $\varepsilon$

为简单起见，请考虑一下回归模型（您可能会看到它被描述为底层的“ 数据生成过程 ”或“ DGP”，我们假设该模型是生成的理论模型）： $y$

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

从原则上讲，没有理由在我们的模型中为什么不能与相关，但是我们更希望它不以这种方式违反标准OLS假设。例如，可能依赖于我们的模型中已省略的另一个变量，并且该变量已被并入扰动项（是我们除会影响所有其他事物的）。如果这个被忽略的变量也与相关，则将与相关，并且我们具有内生性（特别是被省略变量偏差）。 $x$ $\varepsilon$ $y$ $\varepsilon$ $x$ $y$ $x$ $\varepsilon$ $x$

当您根据可用数据估算回归模型时，我们得到

y_{i} = {\hat{β}}_{1} + {\hat{β}}_{2} x_{i} + {\hat{ε}}_{i}

$y_i = \hat \beta_1 + \hat \beta_2 x_i + \hat \varepsilon_i$

由于的方式OLS作品*，残差将是不相关的。但是，这并不意味着我们必须避免内生性-它只是意味着我们可以不通过分析之间的相关性检测到它，和零，这将是（最高数值误差）。而且由于违反了OLS假设，因此我们不再保证我们拥有良好的属性（如无偏见），因此我们非常喜欢OLS。我们估计会有偏差。 $\hat \varepsilon$ $x$ $\hat \varepsilon$ $x$ $\hat \beta_2$

的事实是不相关的从“正规方程”我们用它来选择我们最好的估计系数紧随其后。 $(*)$ $\hat \varepsilon$ $x$

如果不使用到矩阵设置，我坚持在我的实施例中使用上述的双变量模型中，然后将残差平方和为和找到最优和 $S(b_1, b_2) = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (y_i-b_1 - b_2 x_i)^2$ $b_1 = \hat \beta_1$ ，最大限度地减少这个我们发现正规方程，首先对所估计的截距的一阶条件： $b_2 = \hat \beta_2$

\frac{\partial S}{\partial b_{1}} = \sum_{i = 1}^{n} - 2 (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_1} = \sum_{i=1}^n -2(y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n \hat \varepsilon_i = 0$

这表明残差的总和（从而平均）是零，因此对于之间的协方差的公式和任何变量，然后降低到 $\hat \varepsilon$ $x$ 。通过考虑估计斜率的一阶条件，我们看到这是零，即 $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$

\frac{\partial S}{\partial b_{2}} = \sum_{i = 1}^{n} - 2 x_{i} (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} x_{i} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_2} = \sum_{i=1}^n -2 x_i (y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n x_i \hat \varepsilon_i = 0$

如果用于与基质的工作中，我们可以通过定义概括这对多重回归 ; 一阶状态，以尽量减少在最佳是： $S(b) = \varepsilon' \varepsilon = (y-Xb)'(y-Xb)$ $S(b)$ $b = \hat \beta$

\frac{d S}{d b} (\hat{β}) = \frac{d}{d b} (y^{'} y - b^{'} X^{'} y - y^{'} X b + b^{'} X^{'} X b) |_{b = \hat{β}} = - 2 X^{'} y + 2 X^{'} X \hat{β} = - 2 X^{'} (y - X \hat{β}) = - 2 X^{'} \hat{ε} = 0

$\frac{dS}{db}(\hat\beta) = \frac{d}{db}\bigg(y'y - b'X'y - y'Xb + b'X'Xb\bigg)\bigg|_{b=\hat\beta} = -2X'y + 2X'X\hat\beta = -2X'(y - X\hat\beta) = -2X'\hat \varepsilon = 0$

这意味着每行，因此每列，正交于。然后，如果设计矩阵具有构成的列（恰好如果模型具有截距项），就必须有所以残差具有零和和零均值。之间的协方差和任何变量再次是 $X'$ $X$ $\hat \varepsilon$ $X$ $\sum_{i=1}^n \hat \varepsilon_i = 0$ $\hat \varepsilon$ $x$ 和任何变量包含在我们的模型中，我们知道这个和为零，因为正交于设计矩阵的每一列。因此，存在零协方差，和零相关，之间和任何预测变量。 $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$ $x$ $\hat \varepsilon$ $\hat \varepsilon$ $x$

如果你喜欢的东西更几何图，我们的愿望在于尽可能接近到在毕达哥拉斯的一种方式，而事实上，约束到设计矩阵的列空间，决定应该是观察到的在该列空间上的正交投影。因此残差的矢量是正交的每一列，包括那些的矢量 $\hat y$ $y$ $\hat y$ $X$ $\hat y$ $y$ $\hat \varepsilon = y - \hat y$ $X$ $\mathbf{1_n}$ 如果模型中包含拦截项。如前所述，这意味着残差之和为零，从而使残差矢量与的其他列的正交性确保它与这些预测变量中的每一个都不相关。 $X$

多元回归主题空间中的向量

但是，我们在这里所做的任何事情都没有说明真正的误差。假设有在我们的模型中的截距项，残差仅与不相关的为其中我们选择了估计回归系数的方式的数学结果。我们选择的方式影响我们的预测值，因此我们的残差。如果我们选择用OLS，我们必须解决的正规方程，并且这些强制执行我们的估计残值 $\varepsilon$ $\hat \varepsilon$ $x$ $\hat \beta$ $\hat \beta$ $\hat y$ $\hat \varepsilon = y - \hat y$ $\hat \beta$ 是不相关的与。我们的选择影响但不，因此不强加任何条件对真误差。这将是认为一个错误莫名其妙地“继承”其uncorrelatedness与从OLS假设应该是不相关的。不相关性是由正规方程引起的。 $\hat \varepsilon$ $x$ $\hat \beta$ $\hat y$ $\mathbb{E}(y)$ $\varepsilon = y - \mathbb{E}(y)$ $\hat \varepsilon$ $x$ $\varepsilon$ $x$

— 蠹虫
source

1

贵

平均使用人口数据回归？或究竟是什么意思？

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— 北部的

@ user1559897是的，有些教科书将其称为“人口回归线”或PRL。这是人口的基本理论模型。您可能还会在某些来源中看到这个称为“数据生成过程”的信息。（我倾向于谨慎地说这是“人口回归” ...如果您对人口有限（例如美国的50个州）进行回归，那么这不是真的如果您实际上是在软件中的某些数据上进行总体计算，那么您实际上是在用“帽子”谈论回归的估计版本）

— Silverfish

我想我明白你在说什么。如果我理解正确，在模型中的误差项

可以具有非零预期以及因为它是一种理论上的生成处理，而不是一个OLS回归。

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— 在北部的

从统计推断的角度来看，这是一个很好的答案。如果主要关注预测准确性，您会如何看待？请参阅帖子的编辑。

— 北部的

16

简单的例子：

让是我买的访问汉堡的数量 $x_{i,1}$ $i$
设是我购买的bun头的数量。 $x_{i,2}$
令为汉堡的价格 $b_1$
设为小圆面包的价格。 $b_2$
与购买汉堡包和面包无关，我让我随机花费，其中是标量，是平均零随机变量。我们有。 $a + \epsilon_i$ $a$ $\epsilon_i$ $\operatorname{E}[\epsilon_i | X] = 0$
让是我上了一趟杂货店的开支。 $y_i$

数据生成过程为：

y_{i} = a + b_{1} x_{i, 1} + b_{2} x_{i, 2} + ϵ_{i}

$y_i = a + b_1x_{i,1} + b_2x_{i,2} + \epsilon_i$

如果我们跑了回归，我们将得到的估计，和，和有足够的数据，他们将汇聚，和分别。 $\hat{a}$ $\hat{b}_1$ $\hat{b}_2$ $a$ $b_1$ $b_2$

（技术说明：我们需要一点随机性，因此在每次造访杂货店时，我们不会为每个汉堡买正好一个面包。如果这样做，和将是共线的。） $x_1$ $x_2$

省略变量偏差的示例：

现在让我们考虑一下模型：

y_{i} = a + b_{1} x_{i, 1} + u_{i}

$y_i = a + b_1x_{i,1} + u_i$

观察到。因此 $u_i = b_2x_{i,2} + \epsilon_i$

\begin{aligned} Cov (x_{1}, u) & = Cov (x_{1}, b_{2} x_{2} + ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) + Cov (x_{1}, ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) \end{aligned}

$\begin{align*} \operatorname{Cov}(x_{1}, u) &= \operatorname{Cov}(x_1,b_2x_2 + \epsilon )\\ &= b_2 \operatorname{Cov}(x_{1},x_2) + \operatorname{Cov}(x_{1},\epsilon) \\ &= b_2 \operatorname{Cov}(x_{1},x_2) \end{align*}$

这是零吗？几乎可以肯定不！汉堡和小圆面包的购买几乎可以肯定是相关的！因此，和是相关的！ $x_1$ $x_2$ $u$ $x_1$

如果您尝试运行回归会怎样？

如果您尝试运行：

y_{i} = \hat{a} + {\hat{b}}_{1} x_{i, 1} + {\hat{u}}_{i}

$y_i = \hat{a} + \hat{b}_1 x_{i,1} + \hat{u}_i$

你估计几乎可以肯定将是一个贫穷的估计，因为OLS回归估计将被修建使和的样品中是不相关的。但是实际与总体中的相关！ $\hat{b}_1$ $b_1$ $\hat{a}, \hat{b}, \hat{u}$ $\hat{u}$ $x_1$ $u$ $x_1$

如果您这样做，在实践中会发生什么？你估计汉堡包的价格会ALSO皮卡包子的价格。假设您每次购买1 美元的汉堡时都倾向于购买0.50 小圆面包（但并非每次都这样）。您估计汉堡的价格可能是1.40 。您将在对汉堡价格的估计中选择汉堡频道和面包频道。 $\hat{b}_1$

— 马修·冈恩
source

我喜欢你的汉堡面包的例子。您从统计推断的角度解释了问题，即推断汉堡对价格的影响。只是想知道如果我只关心预测（即对测试数据集的预测MSE）会带来什么影响？直觉是它不会那么好，但是有什么理论可以使它更精确吗？（这引入了更多的偏见，但差异较小，因此总体效果对我而言并不明显。）

— 北部的居民，

1

@ user1559897如果你只关心预测的支出，然后使用预测汉堡的数量和花费估计

围绕$ 1.40可能工作得很好。如果您有足够的数据，那么使用汉堡和 bun头的数量无疑会更好。在简短的样本中，

（LASSO）可能会将系数

或

发送为零。我认为您正确地认识到您在回归中所做的工作是在估计条件期望函数。我的观点是，该函数可以捕获因果关系，因此需要其他假设。

{\hat{b}}_{1}

$\hat{b}_1$

L_{1}

$L_1$

b_{1}

$b_1$

b_{2}

$b_2$

— 马修·冈恩（Matthew Gunn）'18

3

假设我们正在建立动物体重在其高度上的回归。显然，海豚的体重与大象或蛇的体重会有所不同（以不同的程序使用不同的仪器）。这意味着模型误差将取决于高度，即解释变量。他们可能以许多不同的方式依赖。例如，也许我们倾向于略微高估大象的重量而略微低估蛇的重量，等等。

因此，在这里我们确定，很容易以错误与解释变量相关的情况结束。现在，如果我们忽略了这一点，并着手回归像往常一样，我们会发现，回归残差是不相关的设计矩阵。这是因为通过设计回归可以强制残差不相关。请注意，也是残差是没有的错误，他们的估计错误。因此，无论误差本身是否与自变量相关，误差估计（残差）都将通过回归方程解的构建而互不相关。

— 阿克萨卡尔族
source

回归误差项如何与解释变量相关联？

简单的例子：

省略变量偏差的示例：

如果您尝试运行回归会怎样？