倾向得分与面板数据匹配

13

我有个人的纵向数据集，其中一些人接受了治疗，而其他人则没有。从出生到18岁的所有个体都在样本中，并且治疗发生在该范围内的某个年龄。治疗的年龄可能因病例而异。使用倾向得分匹配，我想将治疗的和对照组的配对成对地匹配到出生年份，这样我就可以追踪从出生到18岁的每一对。总共有大约150个治疗和4000个未治疗的个体。匹配后，想法是使用差异策略来估计治疗效果。

我目前面临的问题是与面板数据进行匹配。我正在使用Stata的psmatch2命令，并且使用倾向得分匹配来匹配家庭和个人特征。通常，面板数据在每个年龄段都会有不同的最佳匹配。例如：如果治疗A，B和C是对照，并且他们都出生于1980年，那么A和B可能在1980年匹配到0岁，而A和C则在1981年匹配到1岁，依此类推。。另外，A可能与其前几年的自身预处理值匹配。

为了解决这个问题，我取了所有随时间变化的变量的平均值，以便匹配可以识别在样本期间平均而言最相似的个人，并且我针对0至18岁的每个年龄段分别进行匹配。不幸的是，这仍然将不同的控制单元与每个年龄组的每个治疗单元匹配。

如果有人可以指导我找到一种与Stata中的面板数据进行成对匹配的方法，将不胜感激。

stata panel-data propensity-scores

— 安迪
source

9

基本上，您必须创建一个具有与匹配过程相关的所有特征的宽格式数据集，对该横截面数据集执行匹配，然后使用ID来标识面板数据集中的匹配对。以下是更多详细信息：

使用reshape创建一个宽幅的数据集。以您希望在匹配过程中使用预处理变量的方式设置其格式。如果对一个人有多个观察值，则可以取变量的平均值，但也可以采用其他方法（也可以对同一个变量（例如health1，health2）保留多个观察值，并在匹配中使用所有变量）。我们的目标是要有一个数据集，每个人只有一个观察值。
使用此数据集，使用进行匹配过程psmatch2。
将有关匹配案例的信息与原始数据集合并。放下不匹配的箱子等。我不确定这里的细节，因为我不太了解stata，psmatch2但是我想你明白了。

使用这些步骤，您可以根据所有治疗前信息来匹配病例，每个治疗单位只有一个匹配项。

— 格雷格
source

3

我真的不知道为什么这篇文章被否决，因为这个答案确实有帮助。我将再次投票。谢谢格雷格！

— 安迪

5

无法在Stata或我所知道的任何其他软件中执行此操作。

如果您尝试使用面板数据技术修补有偏差的匹配估计量，则此方法可能有效。如果您可以假设匹配可以解决部分选择偏差，但不是全部，但是该偏差在一段时间内基本保持不变，则可以通过在每个周期中构建单独的匹配估算值并采用区别。

$t$ $t'$ $Y_0$

Ë [ÿ_{0 Ť} | X ， d = 1个] - Ë [ÿ_{0 Ť} | X ， d = 0] = Ë [ÿ_{0 Ť^{'}} | X ， d = 1个] - Ë [ÿ_{0 Ť^{'}} | X ， d = 0] = 乙 一世 一种 s ，

$\begin{equation} E[Y_{0t} \vert X, D=1]-E[Y_{0t} \vert X, D=0]=E[Y_{0t'} \vert X, D=1]-E[Y_{0t'} \vert X, D=0]=Bias, \end{equation}$

Δ_{t^{'}}^{M} = Δ^{T T} + B i a s

$\Delta^{M}_{t'}=\Delta^{TT}+Bias$

Δ_{t}^{M} = B i a s

$\Delta^{M}_{t}=Bias$

Δ_{t^{'}}^{M} - Δ_{t}^{M} = Δ^{T T}

$\Delta^{M}_{t'}-\Delta^{M}_{t}=\Delta^{TT}$

Heckman，Ichimura，Smith和Todd（1998年），Econometrica和Eichler和Lechner（2002年）的《劳动经济学》论文就是这种方法的例子。另一方面，处理过的150个观察值可能不足以使这种方法起作用。

— 迪米特里（Dimitriy V. Masterov）
source

1

它应该是可能的匹配对个人的面板数据，因为这两篇论文（paper1，paper2）做得一样好。不幸的是，作者并没有确切说明他们是如何做到的。您在Heckman等人（1998）中描述的想法正是成对匹配后使用Diff-in-Diff的原因。

— 安迪

我不清楚他们是否在进行面板匹配，但是您说对了，程序是模糊的，这是正确的。作者确实写了pscore，这表明一定愿意帮助别人。也许给他们的电子邮件会澄清一些事情。报告他们说的话。这是一个重要的问题。

— Dimitriy V. Masterov 2013年

0

脚步：

正如格雷格（Greg）所详细提到的那样，您可以使用横截面数据集（在预处理方式上或在单独的预处理期间内）生成匹配项。
使用整个面板，您可以为
a 分配指标变量。对待个人
b。usedPeriod，一旦对namedIndividual进行处理，后者等于零。

由于治疗周期从0变到1的时间点因个体而异，并且对于未治疗的永远不会变为1，因此必须将相同的起点从治疗的比赛分配给未治疗的比赛。这是很直观的，但是我仍然希望看到一个很好的参考，证明到目前为止尚未发现的这种方法是正确的。

回归设置为：

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

相互作用项为您提供治疗效果的地方。

— 马蒂亚斯
source

-2

您是否考虑使用nnmatch命令？

我使用此命令，它是一个非常全面的命令。它的确考虑了不同的匹配算法以及一些情况，其中某些控制组个体的倾向得分相同。当然，这种情况的处理方式取决于匹配算法，如果您采用k最近邻或内核或其他方法。

— 统计学家
source

在您引用的文章中，我没有提到面板数据。您是否已将其用于面板数据？如果是，请具体说明并提供一些代码来回答OP的问题。

— Metrics

精确匹配比较容易，但是总体nnmatch更复杂，因为它不将匹配ID存储在当前数据集中，而是存储在单独的数据集中。我将为每个年龄组创建一个数据集，该数据集需要合并到原始数据中。在这种情况下合并是行不通的，因为匹配特征不能唯一标识原始数据中的个人。因此，不幸的是，这没有提供解决方案。

— 安迪2013年