GLM和GEE有什么区别?


9

具有二进制响应变量(包括主题和时间作为协变量)的GLM模型(逻辑回归)与考虑了多个时间点之间的相关性的类似GEE模型之间有什么区别?

我的GLM看起来像:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

具有logit链接功能。

我正在寻找一个简单的解释(针对社会科学家),以解释两个模型中如何以及为什么对时间进行区别对待,以及解释的含义。


6
我发现那些回应相关的问题(是什么广义估计方程和GLMM区别?当使用广义估计方程与混合效应模型?)非常全面,虽然他们对GLM 与随机效应与GEE。
chl 2012年

1
您是否真的要将主题ID设置为连续的协变量?让响应变量成为id的递增或递减函数似乎很奇怪。
来宾

总体平均效果与受试者的具体效果。
2012年

这是一篇讨论两者之间差异的文章的链接。aje.oxfordjournals.org/content/147/7/694.full.pdf+html
威尔

1
除了上述@chl链接的问题外,该问题还讨论了以下思想:SPSS中的广义线性模型和广义线性混合模型之间的差异
gung-恢复莫妮卡

Answers:


12

可能会有更好,更详细的答案,但是我可以给您一些简单,快速的想法。看来您正在谈论使用广义线性模型(例如,典型的逻辑回归)来拟合在多个时间点从某些主题收集的数据。乍一看,我发现这种方法存在两个明显的问题。

首先,该模型假定给定协变量,您的数据是独立的(也就是说,在考虑了每个对象的伪代码之后,类似于一个单独的拦截项,并且每个人的线性时间趋势都相等)。这几乎是不可能的。相反,几乎肯定会存在自相关,例如,即使在考虑了时间之后,对时间更近的同一个人的两个观察也会比时间相距较远的两个观察更相似。(尽管如果您还包括subject ID x time交互作用,也就是每个人都有独特的时间趋势,尽管它们很可能是独立的,但这会加剧下一个问题。)

其次,您将消耗大量的自由度来估计每个参与者的参数。您可能还剩下相对较少的自由度,可以用来准确估计您感兴趣的参数(当然,这取决于您每个人进行了多少次测量)。

具有讽刺意味的是,第一个问题意味着您的置信区间太窄,而第二​​个问题意味着您的配置项将比如果您没有浪费大多数自由度的情况下要宽得多。但是,我不会指望这两者相互抵消。对于它的价值,我相信您的参数估计将是无偏的(尽管我在这里可能是错误的)。

在这种情况下,使用广义估计方程是合适的。当您使用适合GEE模型,您指定的相关性结构(如AR(1)),它可以是相当合理的,你的数据是独立的条件上双方的协变量您所指定的相关矩阵。此外,GEE估计总体均值关联,因此您不必为每个参与者消耗一定的自由度-本质上,您需要对它们进行平均。

据我所知,在两种情况下,解释都是一样的:假设其他因素保持不变,则X3的一个单位变化与B3的“成功”对数赔率相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.