多次插补后如何合并后均值和可信区间?


20

我使用多重插补来获得许多完整的数据集。

我已经在每个完整的数据集上使用贝叶斯方法来获取参数的后验分布(随机效应)。

如何合并/合并此参数的结果?


更多内容:

就个别学生(每个学生一个观察)聚集在学校的意义而言,我的模型是分层的。我对数据进行了多次插补(MICE在R中使用),我将其school作为丢失数据的预测变量之一包括在内-试图将数据层次结构合并到插补中。

我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm在R中使用)。结果是二进制的。

我发现随机斜率方差的后验密度在某种意义上是“表现良好的”: 在此处输入图片说明

对于这种随机效应,如何合并/合并来自每个估算数据集的后均值和可信区间?


更新1

据我到目前为止的了解,我可以将鲁宾的规则应用于后验均值,以给出一个倍增的后验均值-这样做有什么问题吗?但是我不知道如何合并95%的可信区间。另外,由于每个插补都有一个实际的后验密度样本-我可以以某种方式将它们组合吗?


Update2

根据@cyan在评论中的建议,我非常喜欢简单地组合从多个插补的每个完整数据集获得的后验分布样本的想法。但是,我想知道这样做的理论依据。


如果任何给定数据的缺失都与关联的结果值无关,那么将来自不同估算数据集的所有后验样本放在一起,并取合并后验样本的均值和95%可信区间是正确的。
青色2012年

@Cyan等于说失踪机制是“随机丢失”还是“完全随机丢失”,而不是“不是随机丢失”(我了解的执行MI的通常假设)?您是否知道任何有关这种“齐心协力”的正式说法?
2012年

多重插补在其核心是贝叶斯程序。如果您使用贝叶斯方法进行估算(MCMC等),则应将缺失数据的模拟作为完整贝叶斯模型的附加MCMC采样步骤,而不必费心尝试在这些方法之间建立接口。
StasK

@StasK感谢您的评论。我将在下一个项目中尝试使用该方法,但是不幸的是,我现在没有时间更改模型。我已经在每个估算数据集上运行了估算和贝叶斯模型-运行耗时近3周。您认为合并后验样本对我来说是无效的吗?
乔·金

鲁宾的规则仅适用于片刻。我不知道您是否可以有意义的方式将它们应用于发行版。可能是,可能不是。可能最好的办法就是说,MCMC运行得出了点估计(后验均值)和标准误差(后验方差),然后使用Rubin规则获得了总体点和方差估计。您知道分层模型中dfs的损失有多悲惨,并且汇总数据有多危险:如果您拥有5个估算的完整数据集,并且每个数据集都有1M个MCMC样本,则意味着您有5个集群,而不是5M iid MCMC点。
StasK,2012年

Answers:


4

对于行为特别良好的后代,可以通过分布的参数描述来充分描述,您也许可以简单地采用最能描述后验的均值和方差,然后从那里开始。我怀疑这在许多情况下可能是足够的,在这些情况下您不会得到真正的奇数后验分布。


0

如果使用Stata,则有一个名为“ mim”的过程,该过程会在插补后将数据用于混合效果模型。我不知道它在R中是否可用。


谢谢。我可能没有很好地解释-我已经有来自多个估算数据集的后验样本,我想知道是否可以简单地将它们组合起来,然后形成一个多重估算可信区间?
乔·金
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.