为什么从混合效应模型中自举残差会产生反保守的置信区间?


11

我通常处理的数据是,在2个或更多条件下,分别测量了多个个体。我最近一直在使用混合效果建模来评估条件之间差异的证据,individual并将其建模为随机效果。为了可视化此类建模预测的不确定性,我一直在使用自举法,其中在引导程序的每次迭代中,对个体和条件内观察进行替换抽样,并从中计算新的混合效应模型获得。这对于假定高斯误差的数据效果很好,但是当数据为二项式时,自举可能会花费很长时间,因为每次迭代都必须计算一个计算量相对较高的二项式混合效应模型。

我当时的想法是,我可以使用原始模型中的残差然后使用这些残差代替引导程序中的原始数据,这将使我能够在引导程序的每次迭代中计算一个高斯混合效果模型。将原始数据的二项式模型的原始预测与残差的自举预测相加,得出原始预测的CI为95%。

不过,我最近编码这种做法的一个简单的评价,造型两种情况之间没有区别的,计算的时间比例为95%置信区间未能包括零,而且我发现,上述基于残差,引导过程的产量相当强烈反保守的时间间隔(超过5%的时间排除零)。此外,我然后编码(与以前的链接相同)对该方法的类似评估,该评估应用于原始高斯数据,并且获得了相似的(尽管不是极端的)反保守CI。知道为什么会这样吗?


嗯,我只是注意到,在这两种情况下的数据生成代码中,我实际上都没有添加任何个体间的可变性,而这通常是通过将个体建模为随机效应来消除的。我将看看添加此可变性是否会改变结果;几小时后回来...
Mike Lawrence

如果我没记错的话,引导程序会使估算值更接近真实人口估算值。它没有说明置信区间。(请参阅Kesar Singh,“关于Efron引导程序的渐近精度。”,Ann Statist。,
1981,9,1187-1195

@me:我可以确认在数据生成函数中添加个体之间的可变性不会提高引导程序的性能。我已将用于确认这一点的代码上传到原始帖子中链接的要点。
麦克劳伦斯

@suncoolsu:我很确定自举时间间隔的置信区间已经相当长一段时间了。埃夫隆(Efron)在1978年的论文中提到了引导程序,当时他们对引导程序进行了总体描述,然后在80年代和90年代,人们对​​引导程序进行了一些调整,以获得更准确的置信区间(偏差校正,加速,学习等)。
迈克·劳伦斯

1
您是否阅读过Morris的以下文章:“在引导时,BLUP并不是最好的”。它可能与您的工作有关。链接
julieth 2012年

Answers:


7

请记住,所有引导置信区间仅在指定的置信水平上渐近。还有很多可能的方法可以用来选择引导程序置信区间Efron的百分位数方法,Hall的百分位数方法,双自举程序,bootstrap t,倾斜的自举程序,BC,BCa以及其他一些方法。您尚未告诉我们您使用哪种方法。Schenker在1985年JASA上发表的论文表明,对于某些卡方分布,BC自举置信区间掩盖了广告百分比。在样本量小的问题中,这个问题可能很严重。LaBudde和我有两篇论文显示了在小样本中,即使从对数正态分布估计方差时,甚至BCa都可能具有非常差的覆盖率,并且存在测试两个方差相等的类似问题。这只是一个简单的问题。我期望混合模型的残差也会发生同样的事情。在2011年由Wiley发行的新书“带有R的应用程序的Bootstrap方法简介”中,我们在3.7节中介绍了该主题并提供了参考。令人惊讶的是,当样本量较小时,百分位数方法有时会比高阶准确BCa方法更好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.