我在一个人样本中有2次重复测量。在第1时刻有18,000人,在第2时刻有13,000人(失去了5,000人的随访机会)。
我想对在时间1测量的一组预测变量X回归在时间2测量的结果Y(并且在时间1无法测量结果)。所有变量都缺少一些数据。大部分看起来相对随机,或者所观察到的数据似乎很好地描述了缺失。但是,结果Y中的绝大多数缺失是由于后续损失所致。我将使用多个插补(R :: mice),并将使用完整的数据集为X插补值,但是我收到了关于Y插补的2条相互矛盾的建议:
1)在18k的完整样本中从X和V(V =有用的辅助变量)估算Y。
2)不要将Y归因于因追踪而丢失的个体(因此将其从任何后续回归模型中删除)。
前者是有道理的,因为信息就是信息,所以为什么不全部使用它呢?但是后者以更直观的方式也很有意义-根据Y〜X + V估算5000人的结果,然后转回并估算Y〜X似乎是错误的。
哪个(更)正确?
前一个问题很有用,但并不能直接解决由于失去后续行动而造成的失踪(尽管答案可能是相同的;我不知道)。
这对我来说似乎是矛盾的,您能解释一下吗?
—
rolando2 2014年
多重插补和大多数其他插补过程要求您的数据随机丢失(MAR)。有必要了解您研究中的损耗机制。我会怀疑,在您的后续研究中,您缺失的值很可能不是MAR或MCAR。
—
StatsStudent 2015年