多站点研究的混合模型vs.合并标准误差-为什么混合模型效率更高?


16

我有一个数据集,其中包含来自多个站点的一系列“断棍”月度病例计数。我正在尝试从两种不同的技术中获得一个汇总估算值:

技术1:将Poisson GLM的“折断棒”安装到指标变量0/1上,并使用时间和时间^ 2变量来控制时间趋势。该0/1指标变量的估计值和SE是使用相当精确的矩量法向上或向下合并的,或者使用R中的tlnise包来合并以获得“贝叶斯”估计值。这类似于Peng和Dominici处理空气污染数据的方法,但站点数量较少(约十二个)。

技术2:放弃一些针对特定地点的时间趋势控件,并使用线性混合模型。尤其:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

我的问题涉及这些估计得出的标准误差。技术1的标准误差实际上使用的是每周一次而不是每月的时间设置,因此应该具有更高的精度。对于矩量法,估计的标准误差为〜0.206,对于tise的估计值则为〜0.306。

lmer方法给出的标准误差约为0.09。效果估计值是相当接近的,因此似乎并不是因为混合模型的效率大大提高,它们只是在不同的摘要估计值上归零。

这是合理的期望吗?如果是这样,为什么混合模型效率更高?这是普遍现象,还是该模型的特定结果?


如果不确切知道您的技术1中适合采用哪种模型,就很难回答这个问题。您提到了3种可能性,但据我所知,永远都不会解决。然后,您说“技术1的标准误差是〜0.206。” 准确地说,这是标准误差的型号?您是否会像使用技术2那样发布用于拟合该模型的语法?更好的办法是提供一个可重现的示例(不一定是您的原始数据集),我们自己可以使这两个模型都适用。
Jake Westfall

@JakeWestfall是的,当我第一次写这篇文章时,随着问题的发展,这有点像意识流。我将进行一些编辑,看看是否会更有用。不幸的是,代码在某个地方徘徊了……
Fomite

做了一些清理-模型的设计使用相同的变量。不幸的是,代码,数据等在另一台机器上,我正在开会。我认为,根本问题可以归结为“多站点估计:混合模型是否总是/经常比合并更有效率?”
2013年

Answers:


5

我知道这是一个老问题,但是它相对流行并且答案很简单,因此希望对以后的其他人有所帮助。如需更深入的了解,请看克里斯托弗·利珀特(Christoph Lippert)的“线性混合模型”课程,该课程在这里进行了全基因组关联研究。特别请参阅第5讲

混合模型之所以如此有效的原因是,它的设计目的是要准确考虑您要控制的目标:人口结构。您研究中的“人群”是使用相同协议的稍有不同但一致的实现的不同站点。另外,如果您的研究对象是人,那么与来自同一地点的人相比,来自不同地点的人之间的关联可能性较小,因此血缘关系也可能起作用。

与我们拥有的标准最大似然线性模型相反 ñÿ|Xβσ2,线性混合模型会添加一个称为核矩阵的附加矩阵 ķ,它可以估算个体之间的相似度,并适合“随机效应”,以便相似的个体具有相似的随机效应。这产生了模型ñÿ|Xβ+žüσ2一世+σG2ķ

因为您要尝试显式控制总体结构,所以线性混合模型胜过其他回归技术也就不足为奇了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.