如果“控制变量”也是内生的,会发生什么?


13

我从事政治经济学工作,许多模型都包含“无辜的”控制变量,例如人口,不平等,殖民地遗产等,因此作者可以声称自己的独立利益变量没有偏见。

但是,如果这些控制变量中的任何一个是某些省略变量的内生因素,这是否会污染所有自变量的无偏性?

如果是这样,那我们该怎么办?忽略那些控制变量,它们自身会导致省略变量偏差。将它们包括在内,它们将污染模型中的所有内容。

示例:研究人员想知道不平等是否会导致暴力,他控制了一些事情: 看到不平等很可能是内生的(由于省略了利他主义的变量变量(Level of altruism),他将尝试为不等式找到工具变量。但是,成长发展是否也可能是内生的(即与利他主义水平相关)?

Violence=Inequality+Growth+Development+ϵ

这个例子可能看起来很愚蠢,但是我的观点是在政治经济学/发展工作中,有太多因素在起作用(但仍被省略),我恐怕LHS中包含的许多变量都是内生的。然而,研究人员通常只为自己的宠物自变量寻找一种工具。


还要考虑的另一件事是所谓的“不良控制”问题,即控制本身就是结果变量本身的情况。我建议您阅读Angrist和Pischke着名的“最无害的计量经济学”中的3.2.3节,以了解该主题以及如果您希望对自己的问题有更好的理解,为什么这很重要。
MauOlivares

Answers:


10

“但是,如果这些控制变量中的任何一个是某些遗漏变量所固有的,那么这是否会污染所有自变量的无偏性?”

我不想太强调这一点,但是值得一提的是,这通常是不正确的。以下推导将有望对您提到的“污染”有所了解。作为一个简单的反例,假设数据生成处理由下式给出 其中Ž是未观察到的。令C o v X 1Z = 0C o v X 2

Y=X1β1+X2β2+Zγ+ε,
ZCØvX1个ž=0 C o v X 1X 2= 0。那么,显然 X 2是“内生的”。但是请注意,由于 Ç Ò v X 1Z ^ = 0,我们的估计 β 1依然会确定: PLIMCØvX2ž0CØvX1个X2=0X2CØvX1个ž=0β1个 其中X * 1 =中号2X1中号2=[-X2X ' 2 X2-1X ' 2 ]。因为CovX1X2=0X1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0。因此 C o v X 1Z = 0X1=X1Cov(X1,Z)=0

“我们可以做什么?”

做好计量经济学的主要挑战之一是考虑潜在的识别策略。在您描述的这种情况下,您可能无能为力,只能尝试以其他方式解决问题。


尽管您在技术上是正确的,但我不会强调这一点。我宁愿说总体上,我们不能排除任何变量的偏倚,而不是在某些情况下说还可以,因为我们通常不了解DGP。
FooBar

1)你能指出我在参考β推导这种方式?计量经济学没有教我这一点。2)在证明中您在哪里使用C o v X 1Z = 0?看来C o v X 1X 2 = 0就足够了。3)我同意@FooBar的观点,认为C o v X 1X 2= 0是例外,不是常规。确实,如果Cβ^CØvX1个ž=0Cov(X1,X2)=0Cov(X1,X2)=0我们首先不用费心控制 X 2(除了增加精度)。Cov(X1,X2)=0X2
海森堡

@FooBar,我同意。我更新了帖子以强调这是一个特例。就不了解DGP而言,这是正确的。但这不是重点。任何分析都必须对DGP做出假设,并且分析的质量取决于假设的质量。我给出的推导仅用于说明假设的示例(尽管非常强的假设),可以使您到达想要的位置。
jmbejara 2015年

@海森堡:1)您能对此提出一个新的问题吗?如果您仅复制并粘贴派生词并提出您的问题,那将是最好的。2),当我说需要Ç Ò v X * 1Ž = 0。3)你说得对。如果我们对预测Y感兴趣,那将很重要。但是,是的,这很不错。另一方面,可能有必要注意偏倚的大小取决于您相信X 1X的相关程度Cov(X1,Z)=0Cov(X1,Z)=0YX1X2
jmbejara 2015年

1
@jmbejara我张贴了1)作为一个单独的问题。请随时编辑我的问题/标题,因为在这种情况下,我不知道如何聪明地对标题进行措辞,对Googler有用。
海森堡


5

在最小二乘估计的背景下,我们(试图)处理回归变量可能的内生性的方法是通过工具变量估计。这种方法不仅仅依赖于一个内生回归变量-您可能有很多。当然,在这种情况下,您需要找到更多使事情变得更困难的仪器-但原则上,该方法将以相同的方式工作。

IV估计不能解决偏差问题,只能为估计器提供一致性。但是没有什么能解决偏见严格严格外生本身的问题(然后有一些减少偏见的方法)。但是,如果您环顾另一个与统计有关的SE网站Cross Validated,您会发现经验丰富的统计学家并没有真正重视无偏性-他们只关注均方效率以获取有限样本属性,以及对于大型样品特性的一致性。


1
所以正确的方法是确实找到所有内生变量的工具,对吗?
海森堡,2015年

1
是的,这就是方法。
Alecos Papadopoulos

5

这是统计学家安德鲁·盖尔曼(Andrew Gelman)所说的“控制中间结果的谬论”的一个例子。这是他对这种谬论的描述,当研究人员询问是否有更多的女儿会改变您的政治时,这种谬论就会冒出来。有第二个孩子的决定必须以先前有第一个孩子的决定为条件,因此,这似乎是控制内生的决策变量的一个明显例子。

在过去的几年中,进行了几项研究,目的是研究儿子父母与女儿父母相比的经济决策。...所有这些研究的共同特征是,它们控制着孩子的总数...乍一看,控制孩子的总数似乎是合理的。但是,存在一个困难,因为孩子的总数是一个中间结果,并且对其进行控制(无论是通过基于#kids细分数据还是将#kids用作回归模型中的控制变量)都可能会使估算值产生偏差生儿子(或女儿)的因果关系。

为此,假设(假设)政治上保守的父母更想要儿子,并且如果他们有两个女儿,则(假设)他们更可能尝试第三个孩子。相比之下,自由主义者更容易生下两个女儿。在这种情况下,如果查看有关有两个女儿的家庭的数据,则保守派的代表性将不足,并且该数据可能显示出女儿与政治自由主义之间的相关性,即使生育女儿完全没有效果!

一种解决方案是将标准的保守方法(从统计意义上讲!)用于因果推断,即根据您的治疗变量(孩子的性别)回归,但仅控制孩子出生之前发生的事情。例如,可以将第一个孩子是女孩的父母与第一个孩子是男孩的父母进行比较。您还可以查看第二胎,将第二个孩子是女孩的父母与第二个孩子是男孩的父母(控制第一个孩子的性别)进行比较。以此类推,第三个孩子,等等。

有儿子会让您更加保守吗?也许吧,也许不是。控制中间结果的问题

关于您的评论“将那些控制变量留在外面,它们本身会导致省略的变量偏差。”,这似乎取决于您使用哪种仪器。一款真正满足要求的好仪器,必须与第二阶段的误差项无关,并且与您直接控制的其他一切无关。也就是说,该工具仅通过X改变Y。因此,如果我们认为暴力方程式是暴力的结构方程式,那么不平等的合适工具必须独立于增长和发展(祝您好运!)。


1

正如其他帖子所指出的,当回归变量相关时,内生回归变量可能会污染回归中的所有参数估计。

此外,似乎很难想象X 2相关并且X 2是内生的但X 1没有相关的情况。X1X2X2X1

然而,小于需要的保证一致性β 1即使当X 2是内源和X 1X 2是相关的。β^1X2X1X2

考虑以下模型(类似于@jmbejara的表示法)

y=X1β1+X2β2+Zγ+ε,

未观测到的,与通常的外生性假设WRT ε,即 1Zε11nx1(k)εp0对于所有ķ回归量。X2是内生的,即11nx2(k)εp0kX2对于一些对变量ķ1nx1(k)z(l)p0(k,l)

现在,如果是内生的,但X 1并不是在控制X 2之后X 1Z之间的所有关联都消失的意义上X2X1X1ZX2,即

对于所有kl n xk ' 1 QX2zl p 0,其中QX2是在X2(``剩余制造者'')的零空间上的投影,即QX2[ñ-X2X ' 2 X2-1X ' 2 ]

1nx1(k)QX2z(l)p0
(k,l)QX2X2QX2[InX2(X2X2)1X2]那我们很好 其原因是由以下两个步骤估计看出(例如雨宫,1985,第6-7页。):β1

QED。第三行是关键,它还说明了为什么X1X2不相关/正交时我们是安全的。快乐的内生回归。

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
X1X2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.