使用多重插补时如何为混合效果模型的方差成分组合置信区间


20

多重插补(MI)的逻辑是不对缺失值进行一次插补,而是对几次(通常为M = 5)次进行插补,从而得出M个完整的数据集。然后使用完整数据方法分析M个完整的数据集,然后使用Rubin公式将M个估计值及其标准误差组合在一起,以获得“总体”估计值及其标准误差。

到目前为止很好,但是当涉及到混合效果模型的方差成分时,我不确定如何应用此配方。方差分量的采样分布是不对称的-因此,不能以典型的“估计±1.96 * se(估计)”形式给出相应的置信区间。因此,R包lme4和nlme甚至不提供方差分量的标准误差,而仅提供置信区间。

因此,我们可以在数据集上执行MI,然后在M个完整的数据集上拟合相同的混合效应模型后,获得每个方差分量的M个置信区间。问题是如何将这M个区间合并为一个“总体”置信区间。

我想这应该是可能的-一篇文章的作者(yucel和demirtas(2010)非正常随机效应对MI推理的影响)似乎已经做到了,但是他们没有确切解释如何做。

任何提示将是非常义务!

干杯啦


一个非常有趣的问题。如果您想与他人分享,我期待着您的结果……
chl

@chl:完成后,我可以将包含结果的表发送给您,但是我不会真正发明任何新东西。到目前为止,我只是打算将两级归因模型(R包平移)下的MI与简单普通模型(忽略两层结构,R包范数)和按列表删除下的MI进行比较。在不同的样本量下,方差成分的值等。对于研讨会(我是博士生)来说,这应该足够了,但并不完全是开创性的。如果您对如何“模拟”模拟研究有任何想法,我很想听听。
韩文

1
另一件事:我不确定这个问题是否存在适当的分析解决方案。我看了一些其他文献,但是到处都可以优雅地看到这个问题。我还注意到yucel&demirtas(在我提到的文章中,第798页)写道:“这些乘插补数据集被用于使用R包lme4估计模型[…],导致10套(beta,se(beta) )((sigma_b,se(sigma_b)),然后使用Rubin定义的MI合并规则进行合并。”
Rok 2010年

似乎他们使用某种捷径来估计方差分量的SE(这当然是不合适的,因为CI是不对称的),然后应用了经典公式。
韩文

好的,谢谢。您能否将评论放入答案中以便可以投票?
chl 2010年

Answers:


8

这是一个很好的问题!不确定这是否是完整的答案,但是,如果有帮助,我会删除这几行。

Yucel和Demirtas(2010)似乎引用了JCGS上发表的一篇较早的论文,即缺失值的多元线性混合效应模型的计算策略,该模型使用混合EM / Fisher评分方法来生成基于似然性的VC估计。 。它已在R包mlmmm中实现。但是,我不知道它是否会产生CI。

否则,我肯定会检查WinBUGS程序,该程序主要用于多层模型,包括那些缺少数据的模型。我似乎记得,只有在您的MV位于响应变量中,才在协变量中起作用,因为我们通常必须指定完整的条件分布(如果MV存在于自变量中,这意味着我们必须在丢失的X,并将其视为WinBUGS估算的参数...)。这似乎也适用于R为好,如果我请参阅下面的线程上的R-SIG-混合,MIXED在LME丢失的数据,11聚物,PROC。另外,可能值得研究MLwiN软件。


非常感谢您的回复!原则上,我也对如何解决我所描述的具体问题感兴趣(因此感谢WinBUGS技巧)。但是目前,我正在尝试对一份研讨会论文进行仿真研究,在该论文中,我将研究模型错误指定下MI的性能(覆盖率等)。我想如果找不到解决方案并专注于固定效果,我只会忘记方差成分,但是放弃实在令人沮丧。
Rok 2010年

@Rok模拟的好主意!我期待着这个特殊的问题。我想您已经在r-sig-mixed邮件和Gelman关于多级回归的书上进行了搜索……
chl 2010年

我现在看了,坦克供参考!不幸的是,r-sig-mixed档案中没有关于MI的内容。当我们在给定的估算值之内和之间进行变化时,Gelman仅给出有关如何组合来自MI的推论的基本公式(第25.7节)。
Rok 2010年

6

从上方重复评论:

我不确定是否存在针对此问题的适当分析解决方案。我看了一些其他文献,但是到处都忽略了这个问题。我还注意到Yucel&Demirtas(在我提到的文章中,第798页)写道:

这些多重估算的数据集用于通过R包估算模型[…],从而得出lme410组(beta,se(beta)),(sigma_b,se(sigma_b)),然后使用由鲁宾

似乎他们使用某种捷径来估算方差分量的SE(这当然是不合适的,因为CI是不对称的),然后应用了经典公式。


感谢您回来分享这个问题的经验。不幸的是,我没有真正的解决方案,但也许还会有其他建议。
chl 2010年

“被忽略了”……如果我听过的话,这是复习文献的有用短语。
Matt Parker

3

免责声明:这个想法可能很愚蠢,我不会假装理解我所提出的建议的理论含义。

建议 为什么不简单地估算100个(我知道您通常做5个)数据集,运行lme4或nmle,获得置信区间(您有100个),然后:

使用较小的间隔宽度(例如范围/ 1000左右),在每个参数的可能值范围内进行测试,并仅包括那些至少出现在100个配置项中的95个中的那些小的间隔。然后,您将获得您的置信区间的蒙特卡洛“平均值”。

我敢肯定这种方法存在问题(或理论上的问题)。例如,您可能会遇到一组不相交的间隔。根据您的领域,这可能不是一件坏事,也可能不是一件坏事。请注意,只有当您至少有两个完全不重叠的置信区间(由覆盖率小于95%的区域分隔)时,才有可能。

您可能还会考虑更接近贝叶斯对丢失数据的处理,以获得后可信区域,该区域肯定比我的临时建议更好地形成并且在理论上得到更多支持

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.