在纵向研究中,我是否应该为在随访中迷失的个体估算在时间2处得出的结果Y?


10

我在一个人样本中有2次重复测量。在第1时刻有18,000人,在第2时刻有13,000人(失去了5,000人的随访机会)。

我想对在时间1测量的一组预测变量X回归在时间2测量的结果Y(并且在时间1无法测量结果)。所有变量都缺少一些数据。大部分看起来相对随机,或者所观察到的数据似乎很好地描述了缺失。但是,结果Y中的绝大多数缺失是由于后续损失所致。我将使用多个插补(R :: mice),并将使用完整的数据集为X插补值,但是我收到了关于Y插补的2条相互矛盾的建议:

1)在18k的完整样本中从X和V(V =有用的辅助变量)估算Y。

2)不要将Y归因于因追踪而丢失的个体(因此将其从任何后续回归模型中删除)。

前者是有道理的,因为信息就是信息,所以为什么不全部使用它呢?但是后者以更直观的方式也很有意义-根据Y〜X + V估算5000人的结果,然后转回并估算Y〜X似乎是错误的。

哪个(更)正确?

前一个问题很有用,但并不能直接解决由于失去后续行动而造成的失踪(尽管答案可能是相同的;我不知道)。

结果变量的多重插补


这对我来说似乎是矛盾的,您能解释一下吗?
rolando2 2014年

1
多重插补和大多数其他插补过程要求您的数据随机丢失(MAR)。有必要了解您研究中的损耗机制。我会怀疑,在您的后续研究中,您缺失的值很可能不是MAR或MCAR。
StatsStudent 2015年

Answers:


2

我认为这是一个检测案例。您要缺少X,而不是Y。

Y~X

但是X经常丢失或测量错误。

X~Z and Z does not impact Y- except through X.

然后,您可以运行:

 X~Z
 Y~Predicted(X)

并要求对标准误差进行一些调整。

如果样品损耗很多,您可能还需要查看Heckmann 2步骤程序。 http://en.wikipedia.org/wiki/Heckman_correction


2

我认为这都不是最合适的。

Xÿ

从数据中删除所有丢失的数据会导致您的参数出现偏差(如果数据不是MCAR,请参见上文),并显着降低估计的准确性。这是“完整案例”分析,不建议这样做。

ÿ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.