广义线性模型与广义线性混合模型之间的差异


34

我想知道混合GLM和未混合GLM之间有什么区别。例如,在SPSS中,下拉菜单允许用户适应以下任一情况:

  • analyze-> generalized linear models-> generalized linear models
  • analyze-> mixed models-> generalized linear

他们对缺失值的处理方式不同吗?

我的因变量是二进制,并且我有几个分类的和连续的自变量。


Answers:


62

的问世广义线性模型,使我们对数据的积累回归款型当响应变量的分布是不正常的-例如,当你的DV是二元的。(如果您想了解有关GLiM的更多信息,我在这里写了一个相当广泛的答案,尽管上下文有所不同,这可能还是有用的。)但是,GLiM(例如,逻辑回归模型)假设您的数据是独立的。例如,想象一下一项研究,看孩子是否患有哮喘。每个孩子贡献一个数据指向该研究-他们患有哮喘或没有哮喘。但是,有时数据不是独立的。考虑另一项研究,该研究研究孩子在学年中各个时间是否感冒。在这种情况下,每个孩子贡献许多数据点。有时一个孩子可能会感冒,后来可能没有,而后来又可能又感冒了。这些数据不是独立的,因为它们来自同一个孩子。为了适当地分析这些数据,我们需要以某种方式考虑这种非独立性。有两种方法:一种方法是使用广义估计方程式(您没有提到,因此我们将跳过)。另一种方法是使用广义线性混合模型。GLiMM可以通过添加随机效应来解决非独立性问题(如@MichaelChernick所述)。因此,答案是您的第二个选择是用于非常规重复测量(或非独立)数据。(我要提一下@Macro的评论,广义线性混合模型作为特殊情况包括线性模型,因此可以与正态分布数据一起使用。但是,在典型用法中,该术语表示非正态数据。)

更新: (OP也询问了GEE,所以我将写一点关于这三个如何相互联系的信息。)

以下是基本概述:

  • 典型的GLiM(我将使用逻辑回归作为原型案例)使您可以将独立的二进制响应建模为协变量的函数
  • GLMM允许您根据每个单独群集的属性(作为协变量的函数 )对非独立(或群集)的二进制响应进行建模
  • GEE使您可以将非独立二进制数据的总体平均响应建模为协变量的函数

由于每个参与者有多个试验,因此您的数据不是独立的;正如您正确指出的那样,“一位参与者中的[t]婚姻可能比整个参与者中的婚姻更相似”。因此,您应该使用GLMM或GEE。

然后,问题是如何选择GLMM还是GEE更适合您的情况。这个问题的答案取决于您的研究主题-具体来说,就是您希望做出的推断的目标。如前所述,对于GLMM,beta可以告诉您有关协变量一个单位变化对特定参与者的影响,因为它们具有各自的特征。另一方面,使用GEE,β告诉您协变量单位变化对整个相关人群的平均响应的影响。这是很难理解的区别,尤其是因为线性模型没有这种区别(在这种情况下,两者是同一件事)。

logit(pi)=β0+β1X1+bi
logit(p)=ln(p1p),     &      bN(0,σb2)
p β0(β0+bi)biβ0β1pilogit在此处输入图片说明
β1-每个学生都一样(即没有随机斜率)。但是请注意,学生之间的基本能力有所不同-可能是由于智商之类的差异(也就是说,存在随机截距)。但是,整个班级的平均概率与学生不同。令人惊讶的与直觉相反的结果是:额外的一小时的授课会对每个学生通过考试的概率产生可观的影响,但对可能通过的学生总数的影响却相对较小。这是因为有些学生可能已经有很大的机会通过考试,而另一些学生却仍然很少。

您应该使用GLMM还是GEE的问题是您要估计这些功能中的哪个功能。如果您想了解给定学生通过的可能性(例如,您该学生还是该学生的父母),则需要使用GLMM。另一方面,如果您想了解对人口的影响(例如,如果您是老师或校长),则需要使用GEE。

有关此材料的另一个数学上更详细的讨论,请参阅@Macro的答案


2
这是一个很好的答案,但是我认为,尤其是最后一句话,几乎似乎表明您仅对非正常数据使用了GLM或GLMM,这可能不是我们想要的,因为普通的高斯线性(混合)模型也属于这种情况。 GL(M)M类别。
2012年

@Macro,您是对的,我总是忘记了。我编辑了答案以澄清这一点。如果您认为还需要更多,请告诉我。
gung-恢复莫妮卡

我还检查了广义估计方程。像GLiM一样,GEE假设我的数据是独立的吗?每个参与者我都有多次试验。与整个小组相比,一名参与者中的试验可能更相似。
user9203 '07年

@gung,尽管GEE可以产生“人​​口平均”系数,但是,如果我想估计实际人群的概率规模上的平均治疗效果(ATE),对于感兴趣的二元回归变量,我不需要特定学科的方法?据我所知,计算ATE的方法是估计每个有或没有治疗的人的预测概率,然后平均这些差异。难道这不需要一种可以为每个人生成预测概率的回归方法(尽管然后对它们进行平均)吗?
Yakkanomica

1
@Yakkanomica,如果您想要的是,肯定的。
gung-恢复莫妮卡

6

关键是引入随机效应。龚的链接提到了这一点。但是我认为应该直接提到它。那是主要的区别。


+1,您是对的。我应该对此更加清楚。我编辑了答案以包括这一点。
gung-恢复莫妮卡

每当我向模型添加随机效果(例如随机截距)时,都会收到错误消息。我认为我没有足够的数据点来添加随机效果。可能是这样吗?错误消息:glmm:尽管满足所有收敛标准,但最终的Hessian矩阵不是正定的。尽管有此警告,该过程仍继续进行。随后产生的结果基于上一次迭代。模型拟合的有效性尚不确定。
user9203 '07年

3

我建议您也检查一下我之前提出的问题的答案:

通用线性模型与广义线性模型(具有身份链接功能?)


5
我认为这并不能真正回答这个问题,该问题涉及运行GLM和混合效应模型的SPSS功能以及它如何处理缺失值。这是想发表评论吗?否则,请澄清。
chl 2012年

抱歉,开篇似乎有两个“问题”。1.我想知道..... 2.他们处理缺失值的方式不同吗?我正在尝试解决第一个问题。
Behacad 2012年

1
很公平。如果没有进一步的解释,我仍然认为这更适合作为对OP的评论。
chl 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.