在纵向研究中，我是否应该为在随访中迷失的个体估算在时间2处得出的结果Y？

10

我在一个人样本中有2次重复测量。在第1时刻有18,000人，在第2时刻有13,000人（失去了5,000人的随访机会）。

我想对在时间1测量的一组预测变量X回归在时间2测量的结果Y（并且在时间1无法测量结果）。所有变量都缺少一些数据。大部分看起来相对随机，或者所观察到的数据似乎很好地描述了缺失。但是，结果Y中的绝大多数缺失是由于后续损失所致。我将使用多个插补（R :: mice），并将使用完整的数据集为X插补值，但是我收到了关于Y插补的2条相互矛盾的建议：

1）在18k的完整样本中从X和V（V =有用的辅助变量）估算Y。

2）不要将Y归因于因追踪而丢失的个体（因此将其从任何后续回归模型中删除）。

前者是有道理的，因为信息就是信息，所以为什么不全部使用它呢？但是后者以更直观的方式也很有意义-根据Y〜X + V估算5000人的结果，然后转回并估算Y〜X似乎是错误的。

哪个（更）正确？

前一个问题很有用，但并不能直接解决由于失去后续行动而造成的失踪（尽管答案可能是相同的；我不知道）。

结果变量的多重插补

panel-data multiple-imputation

— DL达利
source

这对我来说似乎是矛盾的，您能解释一下吗？

— rolando2 2014年

1

多重插补和大多数其他插补过程要求您的数据随机丢失（MAR）。有必要了解您研究中的损耗机制。我会怀疑，在您的后续研究中，您缺失的值很可能不是MAR或MCAR。

— StatsStudent 2015年

2

我认为这是一个检测案例。您要缺少X，而不是Y。

Y~X

但是X经常丢失或测量错误。

X~Z and Z does not impact Y- except through X.

然后，您可以运行：

 X~Z
 Y~Predicted(X)

并要求对标准误差进行一些调整。

如果样品损耗很多，您可能还需要查看Heckmann 2步骤程序。 http://en.wikipedia.org/wiki/Heckman_correction

— 回归前进
source

2

我认为这都不是最合适的。

$X$ $Y$

从数据中删除所有丢失的数据会导致您的参数出现偏差（如果数据不是MCAR，请参见上文），并显着降低估计的准确性。这是“完整案例”分析，不建议这样做。

$Y$

— 马特·布雷姆斯
source