各个级别面板数据之间的差异


11

用单个级别面板数据指定差异模型中差异的正确方法是什么?

这里是设置:假设我在城市中嵌入了多年的个人级别面板数据,并且处理方式在城市年份级别上有所不同。形式上,让为个别的结果在城市和年和对是否干预影响城市的虚拟在一年。典型的DiD估算器(例如Bertrand等人(2004,第250页)中概述的估算器)基于简单的OLS模型,其中具有针对城市和年份的固定影响项:小号d 小号小号ÿ一世sŤ一世sŤdsŤsŤ

ÿ一世sŤ=一种s+Ť+CX一世sŤ+βdsŤ+ϵ一世sŤ

但是,该估计量是否忽略了个人层面的面板结构(即,对城市中每个人的多次观察)?用个体水平的固定效应项扩展该模型是否有意义?许多DiD应用程序使用重复的横截面数据,而没有单独级别的面板数据。小号一世


Bertrand,Marianne,Esther Duflo和Sendhil Mullainathan。2004年。“我们应该相信差异差异估计有多少?” 经济学季刊119(1):249–75。


如果要捕获实体假人的效果,为什么不使用固定效果模型?DID相当于具有两个时间段的FE,因此包括虚拟变量,然后执行DID会使它们退出。
VCG

如果我错了,请指正我,但我看到两个区别:a)fe模型将使用单位内部比较来估计影响(例如,某人生事件后收入增加还是降低)。DiD方法的想法是将其他观察结果用作控制趋势,以捕获未经治疗会发生的情况。b)DiD侧重于团体级别,而不是个人级别。现在的问题是,如果我在示例中仅将一个单独的水平fe项添加到方程中,将会发生什么。这会将控制Obs用作控制趋势吗?尽管所有对照obs的治疗方法都没有改变……
greg

Answers:


11

差异差异(DiD)的一个不错的功能实际上是您不需要面板数据。鉴于治疗发生在某种程度的汇总(在您所在的城市)中,您只需要在治疗前后从城市中随机抽样。这样就可以估算

yist=Ag+Bt+βDst+cXist+ϵist
并获得治疗的因果关系,即治疗的预期事后预后差异减去对照的预期事后预后差异。

在某些情况下,人们使用单独的固定效应而不是治疗指标,这是当我们没有明确定义的发生治疗的聚集水平时。在这种情况下,你会估计 其中d 是用于后处理期间谁接受的治疗的个体的指示器(用于例如遍布各地的就业市场计划)。有关更多信息,请参阅这些讲义

yit=αi+Bt+βDit+cXit+ϵit
Dit 史蒂夫·皮施克(Steve Pischke)。

在您的设置中,添加单独的固定效果不会改变点估计。治疗指标会被各个固定效应所吸收。但是,这些固定的效果可能会吸收一些残差,因此有可能降低DiD系数的标准误差。AG

这是一个代码示例,它说明了这种情况。我使用Stata,但您可以在您选择的统计数据包中复制它。这里的“个人”实际上是国家,但仍根据某些治疗指标进行分组。

* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"

* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated

* do the standard DiD regression
reg y_bin time treated did

------------------------------------------------------------------------------
       y_bin |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        time |       .375   .1212795     3.09   0.003     .1328576    .6171424
     treated |   .4166667   .1434998     2.90   0.005       .13016    .7031734
         did |  -.4027778   .1852575    -2.17   0.033    -.7726563   -.0328992
       _cons |         .5   .0939427     5.32   0.000     .3124373    .6875627
------------------------------------------------------------------------------

 * now repeat the same regression but also including country fixed effects
 areg y_bin did time treated, a(country)

------------------------------------------------------------------------------
       y_bin |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        time |       .375    .120084     3.12   0.003     .1348773    .6151227
     treated |          0  (omitted)
         did |  -.4027778   .1834313    -2.20   0.032    -.7695713   -.0359843
       _cons |   .6785714    .070314     9.65   0.000       .53797    .8191729
-------------+----------------------------------------------------------------

因此,您会看到当包含各个固定效果时,DiD系数保持不变(这areg是Stata中可用的固定效果估计命令之一)。标准误差稍微严格一些,我们原来的治疗指标已被各个固定效应所吸收,因此在回归分析中下降了。

在回应评论时,
我提到了Pischke示例,以说明人们何时使用个人固定效果而不是治疗组指标。您的设置具有定义良好的组结构,因此您编写模型的方式非常好。标准错误应集中在城市级别,即进行治疗的汇总级别(我在示例代码中没有做到这一点,但在DiD设置中,需要校正标准错误,如Bertrand等人的论文所示) )。

dsŤsŤ

C=[Ëÿ一世sŤ|s=1个Ť=1个-Ëÿ一世sŤ|s=1个Ť=0]-[Ëÿ一世sŤ|s=0Ť=1个-Ëÿ一世sŤ|s=0Ť=0]

Ëÿ一世sŤ|s=1个Ť=1个Ëÿ一世sŤ|s=0Ť=1个。为了弄清楚为什么识别来自时间上的组差异,而不是来自动子,您可以使用简单的图形将其可视化。假设结果的变化确实仅是由于治疗而引起的,并且具有同时效应。如果我们有一个人在治疗开始后住在一个治疗过的城市,但随后又转移到一个对照城市,那么他们的结果应该回到治疗之前的状态。如下图所示。

在此处输入图片说明

但是,您可能仍会出于其他原因考虑移动器。例如,如果治疗具有持久作用(即,即使个体已经移动,它仍然会影响结果)


2
好答案。您还会建议在这里将错误汇总到城市级别吗?
Dimitriy V. Masterov

好答案,谢谢。您的等式是第12页的等式3,对吗?Pischke用“但是,有时没有分配自然单位的方法来介绍这一部分。相反,有些人在特定的时间点得到治疗,而另一些人则没有”。但是事实并非如此。在我的设置中,治疗是在城市(或任何组)级别上进行的+我有面板数据。它可能仍然是正确的模型,也许带有聚类的se。你打算说什么?如果个人可以在城市之间移动多年?在这种情况下,将根据推动者来确定“已治疗”的条件,对吗?
greg

@ DimitriyV.Masterov Bertrand等人的建议是将标准错误集中在发生治疗的组水平上。或者,您也可以使用带有替换功能的块引导程序,尽管这又将在城市级别进行。
安迪

@greg我编辑了答案,以更详细地回答您的评论。我希望这会有所帮助:-)
Andy

如果使用多个期间,会有所不同吗?无论如何,虚拟D_i_t在事件发生前的所有时间段均为零,并且在事件发生后的所有时间段均为1。如果我只用了两个期间,会不会一样?@Andy
Jinhua Wang

1

简短的答案是,在单位或治疗组水平使用固定效应不会改变估计,只能推论。通常,使用单位固定效果将吸收更多的变化,因此标准误差较小。

单位是否在同一聚合组中不会更改此结果(它只会更改您定义已处理组级别的方式,以及需要面板而不是重复横截面的事实)。

但是请注意,等价仅在没有协变量X时成立。一旦有了X,则无论使用单位固定效果还是组固定效果,结果都不同。

下面的示例比较了有和没有X的两种情况下的3个估计量。估计量为:

  1. 最小二乘
  2. FE(治疗)组固定效果
  3. 单元固定效果的有限元

#>              OLS         FE treated  FE unit   OLS x       FE treated x  FE unit x
#> ----------------------------------------------------------------------------------
#> (Intercept)   0.500 ***                         0.491 ***                         
#>              (0.094)                           (0.107)                            
#> did          -0.403 *    -0.403 *    -0.403 *  -0.407 *    -0.407 *      -0.460 * 
#>              (0.185)     (0.185)     (0.183)   (0.189)     (0.189)       (0.187)  
#> x1                                              0.018       0.018         0.220   
#>                                                (0.104)     (0.104)       (0.165)  
#> ----------------------------------------------------------------------------------
#> Num. obs.    70          70          70        70          70            70       
#> ==================================================================================
#> *** p < 0.001, ** p < 0.01, * p < 0.05

码:

library(tidyverse)
library(haven)
library(texreg)
library(lfe)


dat <- read_dta("http://dss.princeton.edu/training/Panel101.dta")  %>% 
  mutate(time = (year>=1994) ,
         treated = (country>4),
         did = time*treated)

reg_ols <- lm(y_bin~ time+ treated+ did, data = dat)
reg_fe_a <- felm(y_bin~ did | time+ treated, data = dat)
reg_fe_b <- felm(y_bin~ did | time+ country, data = dat)

reg_ols_x <- update(reg_ols, .~.+x1)
reg_fe_a_x <- update(reg_fe_a, .~.+x1)
reg_fe_b_x <- update(reg_fe_b, .~.+x1)



screenreg(list(reg_ols, reg_fe_a, reg_fe_b, reg_ols_x, reg_fe_a_x, reg_fe_b_x), 
          omit.coef = "time|treated", digits=3, 
          include.rsquared = FALSE, include.adjrs = FALSE, include.rmse = FALSE,
          custom.model.names = c("OLS", "FE treated", "FE unit", "OLS x", "FE treated x", "FE unit x"))
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.