倾向得分与面板数据匹配


13

我有个人的纵向数据集,其中一些人接受了治疗,而其他人则没有。从出生到18岁的所有个体都在样本中,并且治疗发生在该范围内的某个年龄。治疗的年龄可能因病例而异。使用倾向得分匹配,我想将治疗的和对照组的配对成对地匹配到出生年份,这样我就可以追踪从出生到18岁的每一对。总共有大约150个治疗和4000个未治疗的个体。匹配后,想法是使用差异策略来估计治疗效果。

我目前面临的问题是与面板数据进行匹配。我正在使用Stata的psmatch2命令,并且使用倾向得分匹配来匹配家庭和个人特征。通常,面板数据在每个年龄段都会有不同的最佳匹配。例如:如果治疗A,B和C是对照,并且他们都出生于1980年,那么A和B可能在1980年匹配到0岁,而A和C则在1981年匹配到1岁,依此类推。 。另外,A可能与其前几年的自身预处理值匹配。

为了解决这个问题,我取了所有随时间变化的变量的平均值,以便匹配可以识别在样本期间平均而言最相似的个人,并且我针对0至18岁的每个年龄段分别进行匹配。不幸的是,这仍然将不同的控制单元与每个年龄组的每个治疗单元匹配。

如果有人可以指导我找到一种与Stata中的面板数据进行成对匹配的方法,将不胜感激。

Answers:


9

基本上,您必须创建一个具有与匹配过程相关的所有特征的宽格式数据集,对该横截面数据集执行匹配,然后使用ID来标识面板数据集中的匹配对。以下是更多详细信息:

  1. 使用reshape创建一个宽幅的数据集。以您希望在匹配过程中使用预处理变量的方式设置其格式。如果对一个人有多个观察值,则可以取变量的平均值,但也可以采用其他方法(也可以对同一个变量(例如health1,health2)保留多个观察值,并在匹配中使用所有变量)。我们的目标是要有一个数据集,每个人只有一个观察值

  2. 使用此数据集,使用进行匹配过程psmatch2

  3. 将有关匹配案例的信息与原始数据集合并。放下不匹配的箱子等。我不确定这里的细节,因为我不太了解stata,psmatch2但是我想你明白了。

使用这些步骤,您可以根据所有治疗前信息来匹配病例,每个治疗单位只有一个匹配项。


3
我真的不知道为什么这篇文章被否决,因为这个答案确实有帮助。我将再次投票。谢谢格雷格!
安迪

5

无法在Stata或我所知道的任何其他软件中执行此操作。

如果您尝试使用面板数据技术修补有偏差的匹配估计量,则此方法可能有效。如果您可以假设匹配可以解决部分选择偏差,但不是全部,但是该偏差在一段时间内基本保持不变,则可以通过在每个周期中构建单独的匹配估算值并采用区别。

ŤŤÿ0

Ë[ÿ0Ť|Xd=1个]-Ë[ÿ0Ť|Xd=0]=Ë[ÿ0Ť|Xd=1个]-Ë[ÿ0Ť|Xd=0]=一世一种s
ΔŤ中号=ΔŤŤ+一世一种sΔŤ中号=一世一种sΔŤ中号-ΔŤ中号=ΔŤŤ

Heckman,Ichimura,Smith和Todd(1998年),Econometrica和Eichler和Lechner(2002年)的《劳动经济学》论文就是这种方法的例子。另一方面,处理过的150个观察值可能不足以使这种方法起作用。


1
它应该是可能的匹配对个人的面板数据,因为这两篇论文(paper1paper2)做得一样好。不幸的是,作者并没有确切说明他们是如何做到的。您在Heckman等人(1998)中描述的想法正是成对匹配后使用Diff-in-Diff的原因。
安迪

我不清楚他们是否在进行面板匹配,但是您说对了,程序是模糊的,这是正确的。作者确实写了pscore,这表明一定愿意帮助别人。也许给他们的电子邮件会澄清一些事情。报告他们说的话。这是一个重要的问题。
Dimitriy V. Masterov 2013年

0

脚步:

  1. 正如格雷格(Greg)所详细提到的那样,您可以使用横截面数据集(在预处理方式上或在单独的预处理期间内)生成匹配项。

  2. 使用整个面板,您可以为
    a 分配指标变量。对待个人
    b。usedPeriod,一旦对namedIndividual进行处理,后者等于零。

    由于治疗周期从0变到1的时间点因个体而异,并且对于未治疗的永远不会变为1,因此必须将相同的起点从治疗的比赛分配给未治疗的比赛。这是很直观的,但是我仍然希望看到一个很好的参考,证明到目前为止尚未发现的这种方法是正确的。

回归设置为:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

相互作用项为您提供治疗效果的地方。


-2

您是否考虑使用nnmatch命令?

我使用此命令,它是一个非常全面的命令。它的确考虑了不同的匹配算法以及一些情况,其中某些控制组个体的倾向得分相同。当然,这种情况的处理方式取决于匹配算法,如果您采用k最近邻或内核或其他方法。


在您引用的文章中,我没有提到面板数据。您是否已将其用于面板数据?如果是,请具体说明并提供一些代码来回答OP的问题。
Metrics

精确匹配比较容易,但是总体nnmatch更复杂,因为它不将匹配ID存储在当前数据集中,而是存储在单独的数据集中。我将为每个年龄组创建一个数据集,该数据集需要合并到原始数据中。在这种情况下合并是行不通的,因为匹配特征不能唯一标识原始数据中的个人。因此,不幸的是,这没有提供解决方案。
安迪2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.