我使用多重插补来获得许多完整的数据集。
我已经在每个完整的数据集上使用贝叶斯方法来获取参数的后验分布(随机效应)。
如何合并/合并此参数的结果?
更多内容:
就个别学生(每个学生一个观察)聚集在学校的意义而言,我的模型是分层的。我对数据进行了多次插补(MICE
在R中使用),我将其school
作为丢失数据的预测变量之一包括在内-试图将数据层次结构合并到插补中。
我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm
在R中使用)。结果是二进制的。
我发现随机斜率方差的后验密度在某种意义上是“表现良好的”:
对于这种随机效应,如何合并/合并来自每个估算数据集的后均值和可信区间?
更新1:
据我到目前为止的了解,我可以将鲁宾的规则应用于后验均值,以给出一个倍增的后验均值-这样做有什么问题吗?但是我不知道如何合并95%的可信区间。另外,由于每个插补都有一个实际的后验密度样本-我可以以某种方式将它们组合吗?
Update2:
根据@cyan在评论中的建议,我非常喜欢简单地组合从多个插补的每个完整数据集获得的后验分布样本的想法。但是,我想知道这样做的理论依据。
如果任何给定数据的缺失都与关联的结果值无关,那么将来自不同估算数据集的所有后验样本放在一起,并取合并后验样本的均值和95%可信区间是正确的。
—
青色2012年
@Cyan等于说失踪机制是“随机丢失”还是“完全随机丢失”,而不是“不是随机丢失”(我了解的执行MI的通常假设)?您是否知道任何有关这种“齐心协力”的正式说法?
—
2012年
多重插补在其核心是贝叶斯程序。如果您使用贝叶斯方法进行估算(MCMC等),则应将缺失数据的模拟作为完整贝叶斯模型的附加MCMC采样步骤,而不必费心尝试在这些方法之间建立接口。
—
StasK
@StasK感谢您的评论。我将在下一个项目中尝试使用该方法,但是不幸的是,我现在没有时间更改模型。我已经在每个估算数据集上运行了估算和贝叶斯模型-运行耗时近3周。您认为合并后验样本对我来说是无效的吗?
—
乔·金
鲁宾的规则仅适用于片刻。我不知道您是否可以有意义的方式将它们应用于发行版。可能是,可能不是。可能最好的办法就是说,MCMC运行得出了点估计(后验均值)和标准误差(后验方差),然后使用Rubin规则获得了总体点和方差估计。您知道分层模型中dfs的损失有多悲惨,并且汇总数据有多危险:如果您拥有5个估算的完整数据集,并且每个数据集都有1M个MCMC样本,则意味着您有5个集群,而不是5M iid MCMC点。
—
StasK,2012年