1
如何用二元工具和二元内生变量解释工具变量回归中的第二阶段系数?
(相当长的帖子,对不起。它包含许多背景信息,请随时跳到底部的问题。) 简介:我正在做一个项目,我们试图确定二进制内生变量对连续结果。我们提出了一个工具,我们坚信它是随机分配的。x1x1x_1yyyz1z1z_1 数据:数据本身是一个面板结构,其中约34,000个观测值分布在1000个单位和约56个时间段内。对于大约700个(2%)的观测值,取值为1;对于大约3000个(9%),取值为1 。111个(0.33%)观测值在和上均得分为1,如果观测值在上也得分为1,则其在上得分为1的可能性是原来的两倍。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 估计:我们通过Stata的ivreg2-过程估计以下2SLS模型: x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u 其中是其他外生变量的向量, 是从第一阶段开始的的预测值,而和是误差项。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 结果:一切似乎都运行良好;的估计在第一阶段非常重要,而的估计在第二阶段非常重要。所有符号均符合预期,包括其他外生变量的符号。但是,问题在于(感兴趣的系数)的估计值太大了(或者至少根据我们一直在解释它的方式),这令人难以置信。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy范围为2到26,平均值和中位数为17,但是的估计值范围为30到40(取决于规格)!β1β1\beta_1 弱IV:我们的第一个想法是这是由于乐器太弱所致。就是说,它与内生变量之间的关系不大,但事实并非如此。为了检查该仪器的弱点,我们使用Finlay,Magnusson和Schaffer的weakiv-package,因为它提供的测试对于违反假设的情况很健壮(在此处具有相关性,因为我们拥有面板数据并将我们的SE聚类在单位级别)。i.i.d.i.i.d.i.i.d. 根据他们的AR测试,第二阶段系数的95%置信区间的下限在16到29之间(再次取决于规格)。对于所有接近零的值,拒绝概率实际上为1。 有影响的观察结果: 我们尝试估计模型,其中每个单元都被单独删除,每个观察值都被单独删除,并且单元簇被删除。没有真正的改变。 提议的解决方案:有人建议我们不应该以原始度量(0-1)来总结被测量的估计效果,而应该以其预测版本的度量来总结。范围是-0.01至0.1,平均值和中位数约为0.02,SD约为0.018。如果我们通过的一个SD增加来总结的估计效果,那将是 (其他规范给出的结果几乎相同)。这将是更合理的方法(但仍然很重要)。似乎是完美的解决方案。除了我从未见过有人这样做;每个人似乎都只是使用原始内生变量的度量来解释第二阶段系数。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 问题:在IV模型中,使用预测变量的度量来总结内生变量增加的估计效果(实际上是LATE)是否正确?在我们的案例中,该指标是预测概率。 注意:即使我们有一个二进制内生变量(使第一阶段成为LPM),我们仍使用2SLS。遵循Angrist&Krueger(2001):“仪器变量与识别:从供需到自然实验”),我们还尝试了Adams,Almeida和Ferreira(2009)中使用的三阶段程序:了解创始人-首席执行官与公司绩效之间的关系”。后一种方法由一个概率模型和一个2SLS组成,产生的系数更小且更合理,但是如果以0-1度量(大约9-10)进行解释,它们仍然很大。手动计算得到的结果与Cerulli ivtreatreg中的probit-2sls-option的结果相同。