两阶段模型:Heckman模型(用于处理样本选择)和工具变量(用于处理内生性)之间的差异


16

我试图弄清样本选择和内生性之间的差异,进而弄清Heckman模型(处理样本选择)与工具变量回归(处理内生性)之间的区别。

说样品选择是内生性的一种特定形式是正确的,内生性变量是被治疗的可能性吗?

另外,在我看来,Heckman模型和IV回归都是两个阶段的模型,其中第一阶段预测了被治疗的可能性-我认为,根据经验,目标和假设,他们必须有所不同,但是如何?

Answers:


23

要回答您的第一个问题,您是正确的,即样本选择是内生性的一种特定形式(有关内生性和常见疗法的良好基础综述,请参见Antonakis等人2010),但是您在说被治疗的可能性时说得不对。是内生变量,因为处理变量本身(“非随机处理分配”)(而不是被治疗的可能性)是样本选择中的内生变量。回想一下,内生性是指您错误地确定了因素X和因素Y之间的因果关系的情况,当观察到的“关系”实际上是由于另一个因素X影响了X和Y时。换句话说,给定回归模型:

yi=β0+β1xi+...+ϵi

当一个或多个预测变量与模型中的误差项相关时,就会发生内生性。也就是说,当。Cov(x,ϵ)0

内生性的常见原因包括:

  1. 省略的变量(有些事情我们无法衡量)
    • 动机/选择
    • 能力/才能
    • 自我选择
  2. 测量误差 (我们想包含,但我们只观察)x j *xjxj
  3. 同时性/双向性(在5岁以下的儿童中,营养状况指标“按年龄增长的体重”与该儿童是否最近生病之间的关系可能是同时发生的。

不同类型的问题需要略有不同的解决方案,这就是IV和Heckman型校正之间的区别所在。当然,这些方法的基本机制有所不同,但前提是相同的:即消除内生性,理想情况下是通过排除限制,即在使用IV时使用一种或多种仪器或影响选择的变量,但不会在Heckman案中的结果。

要回答第二个问题,您必须考虑导致这些解决方案开发的数据限制类型的差异。我喜欢认为,当一个或多个变量是内生的时,会使用工具变量(IV)方法,并且模型中没有简单的替代方法可以消除内生性,但是对于所有观察都观察到了协变量和结果。另一方面,当您被截断时,将使用Heckman类型的校正,即,对于选择变量的值== 0的样本中的那些信息,未观察到信息。

工具变量(IV)方法

考虑一下具有两阶段最小二乘(2SLS)估计量的IV回归的经典计量经济学示例:教育对收入的影响。

Earningsi=β0+β1OwnEdi+ϵi(1)

在这里,教育成就的水平是内生的,因为它部分地取决于个人的动力和能力,这两者也影响一个人的收入。动机和能力通常不在家庭或经济调查中衡量。因此,等式1可以写为明确包括动机和能力:

Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi(2)

由于实际上未观察到和,因此等式2可以写成:b MotivAbil

Earningsi=β0+β1OwnEdi+ui(3),

其中(4)。ui=β2Motivi+β3Abili+ϵi

因此,对通过OLS进行的教育对收入的影响的初步估计会产生偏差。这部分您已经知道。

过去,人们使用父母的教育作为自己受教育程度的工具,因为他们符合有效工具的三个要求():z

  1. 𝐶 𝑜 𝑣𝑧𝑥0z必须与内生预测因子,𝐶𝑜𝑣(𝑧,𝑥)0
  2. 𝐶 𝑜 𝑣𝑧𝑦= 0z不能与结果直接相关,并且𝐶𝑜𝑣(𝑧,𝑦)=0
  3. ž 𝐶 𝑜 𝑣𝑧𝑢= 0z不能与不可观察的(u)特性相关(即是外生的)z𝐶𝑜𝑣(𝑧,𝑢)=0

当您在第一阶段使用父母的教育(和)估算主题的教育(),并使用教育的预测值()在第二阶段估算时,您(非常简单) ,则根据不受动机/能力决定的那部分来估算。M o m E d D a d E d ^ O w n E d E a r n i n g s E a r n i n g s O w n E dOwnEdMomEdDadEdOwnEd^EarningsEarningsOwnEd

赫克曼型修正

正如我们之前所确定的,非随机样本选择是内生性的一种特定类型。在这种情况下,被忽略的变量是如何选择样本中的人员。通常,当您遇到样本选择问题时,仅对那些样本选择者观察到您的结果variable == 1。此问题也称为“偶然截断”,而解决方案通常称为Heckman校正。计量经济学的经典例子是已婚妇女的工资待遇:

Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi(5)

这里的问题是,仅适用于为工资工作的女性,因此,天真的估计量会产生偏差,因为我们不知道对于不参加劳动力的人来说工资是什么,选择变量。公式5可以重写以显示它是由两个潜在模型共同确定的:小号Wages

Wagei=Xβ+ϵi(6)

LaborForcei=Zγ+νi(7)

也就是说, IFF且 IFF L a a b o r F o r c e i > 0 W a g e = 大号一个b ö ř ˚F ö ř Ç é * 0Wage=WageiLaborForcei>0Wage=.LaborForcei0

因此,此处的解决方案是使用概率模型和排斥限制来预测第一阶段参与劳动力的可能性(此处适用有效工具的标准相同),计算预测的密尔逆比(),然后在第二阶段使用作为模型中的预测变量来估算工资(Wooldridge 2009)。如果上的系数在统计上等于零,则没有样本选择(内生性)的证据,并且OLS结果是一致的并且可以呈现。如果的系数λ^λ^λ^λ^ 在统计上明显不同于零,您将需要报告校正后的模型中的系数。

参考文献

  1. Antonakis,John,Samuel Bendahan,Philippe Jacquart和Rafael Lalive。2010。“关于提出因果主张:回顾和建议。” 《领导力季刊》 21(6):1086-1120。doi:10.1016 / j.leaqua.2010.10.010。
  2. Wooldridge,Jeffrey M.,2009年。《计量经济学概论:一种现代方法》。第四版。美国俄亥俄州梅森:西南,参与学习。

1
在Heckman型校正中,如何解释每个观测值的反Mills比值?它是否表示在特定时刻将要在非工作人口中工作的人数?
Quirik

2

应当区分特定的Heckman样本选择模型(仅观察到一个样本)和用于自我选择的Heckman类型校正,这也适用于观察到两个样本的情况。后者称为控制功能方法,相当于在您的第二阶段中包含一个控制内生性的术语。

让我们有一个带有内生虚拟变量D(工具Z)的标准案例:

Y=β+β1D+ϵ
D=γ+γ1Z+u

两种方法都运行第一阶段(在Z上为D)。IV使用标准OLS(即使D是虚拟对象)Heckman也使用概率。但是除此之外,主要的区别在于他们使用第一阶段进入主要方程式的方式:

  • IV:通过将D分解为与不相关的部分来打破内生性,这 D的预测:ϵY=β+β1D^+ϵ
  • Heckman:建模内生性:保留内生D,但增加第一阶段的预测值的函数。对于这种情况,它是一个非常复杂的函数:,其中是反米尔斯比率Y=β+β1D+β2[λ(D^)λ(D^)]+ϵλ()

Heckman过程的优势在于,它可以直接测试内生性:系数。另一方面,Heckman程序依赖于错误的联合正态性的假设,而IV则不做任何这样的假设。β2

因此,您有一个标准的故事,即正常错误时,控制功能会比IV更有效率(特别是如果使用MLE而不是此处显示的两步操作),但是如果假设不成立,则IV更好。由于研究人员对正态性的假设越来越怀疑,因此越来越多地使用IV。


0

来自Heckman,Urzua和Vytlacil(2006):

选择偏向的例子:考虑政策对国家结果的影响(例如GDP)。如果即使在没有政策的情况下在不可观察性方面表现出色的国家是采用该政策的国家,那么OLS的估算也会有偏差。

已采用两种主要方法来解决此问题:(a)选择模型和(b)工具变量模型。

选择方法模拟条件均值的水平。IV方法对条件均值的斜率建模。IV不能识别选择模型中估计的常数。

静脉注射方法不以D(治疗)为条件。选择(控制功能)估计器使用控制功能识别条件均值。

当使用带有曲率假设的控制函数时,在选择模型中不需要排除限制(不需要)。通过假设误差项分布的一种函数形式,可以排除结果方程的条件均值等于条件控制函数的可能性,因此您可以在没有排除限制的情况下校正选择。另见Heckman和Navarro(2004)。ZX

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.