当您具有要估计的先验线性模型时,多重插补非常简单。但是,当您实际上要进行一些模型选择时,事情似乎有些棘手(例如,从更大的一组候选变量中找到“最佳”预测变量集-我正在特别考虑使用R的LASSO和分数多项式)。
一种想法是使模型适合具有丢失值的原始数据,然后在MI数据集中重新估计该模型,并像平常一样合并估计。但是,这似乎有问题,因为您期望出现偏差(或者为什么首先要选择MI?),这可能会导致从一开始就选择“错误的”模型。
另一个想法是要在每个MI数据集中使用任何模型选择过程-但是如果结果包含不同的变量集,您将如何合并结果呢?
我曾经想过要堆叠一组MI数据集,并将它们分析为一个大型数据集,然后将其用于拟合单个“最佳”模型,并包括随机效应以说明您对以下问题使用重复测量的事实每个观察。
听起来合理吗?还是天真地令人难以置信?任何有关此问题的指针(具有多个插补的模型选择)将不胜感激。