解释“混合模型”的三种形式


19

有一个区别让我迷上了混合模型,我想知道我是否可以对此有所了解。假设您有一个计数数据的混合模型。有一个您要用作固定效果的变量(A)和另一个时间(T)变量,按“站点”变量分组。

据我了解:

glmer(counts ~ A + T, data=data, family="Poisson") 是固定效果模型。

glmer(counts ~ (A + T | Site), data=data, family="Poisson") 是随机效应模型。

我的问题是,当您遇到以下情况时:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")什么是T?这是随机效应吗?固定效果?将T放在两个地方实际上完成了什么?

什么时候应在模型公式的“随机效应”部分中显示?

Answers:


22

通过为这三个模型中的每一个写出模型公式,这可能会变得更加清晰。让对于人的观察在现场在每个模型和定义类似于参考变量模型。Ĵ ĴŤ ĴYijijAij,Tij

glmer(counts ~ A + T, data=data, family="Poisson") 是模特

log(E(Yij))=β0+β1Aij+β2Tij

这只是一个普通的泊松回归模型。

glmer(counts ~ (A + T|Site), data=data, family="Poisson") 是模特

log(E(Yij))=α0+ηj0+ηj1Aij+ηj2Tij

其中是站点的个人所做的每次观察所共有的随机效应。您可以在指定的模型中自由关联这些随机效应(即,对不做任何限制)。要施加独立性,您必须将它们放在不同的括号内,例如这样做。该模型假设所有站点的为,但是每个站点都有一个随机偏移(),并且与两个都具有随机线性关系。Ĵ Σ 日志 È Ý Ĵ α 0 η Ĵ 0ĴŤ Ĵηj=(ηj0,ηj1,ηj2)N(0,Σ)jΣ(A-1|Site) + (T-1|Site) + (1|Site)log(E(Yij))α0ηĴ0一种一世ĴŤ一世Ĵ

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") 是模特

日志Ëÿ一世Ĵ=θ0+γĴ0+θ1个一种一世Ĵ+θ2+γĴ1个Ť一世Ĵ

因此,现在与有一些“平均”关系,由固定效果但是这种关系每个站点都不同,并且这些差异由随机效果。也就是说,基线是随机移位的,并且两个变量的斜率是随机移位的,并且来自同一站点的每个人都共享相同的随机移位。ĴŤ Ĵ θ 0θ 1θ 2 γ Ĵ 0γ Ĵ 1γ Ĵ 2日志Ëÿ一世Ĵ一种一世ĴŤ一世Ĵθ0θ1个θ2γĴ0γĴ1个γĴ2

什么是T?这是随机效应吗?固定效果?将T放在两个地方实际上完成了什么?

Ť γ Ĵ 1 Ť 日志 È Ý ĴŤ是您的协变量之一。这不是随机效应- Site是随机效应。根据上述模型中的-赋予的随机效应,的固定效应会有所不同。通过包括这种随机效应,可以实现与之间关系中的位点之间的异质性。ŤSiteγĴ1个Ť日志Ëÿ一世Ĵ

什么时候只应在模型公式的“随机效应”部分中显示?

这是在应用程序上下文中有意义的问题。

关于拦截-出于多种原因,您应该将固定拦截保留在其中(例如,请参见此处);关于:随机截距,主要是在同一位置进行观测之间的相关性。如果不存在这种相关性,则应排除随机效应。γĴ0

关于随机斜率,只有随机斜率而没有固定斜率的模型反映了一种信念,即对于每个站点,与每个站点的协变量之间存在某种关系,但如果将所有网站上的效果平均化,则没有关系。例如,如果您在有一个随机的斜率,但没有固定的斜率,这就像说平均而言,时间没有影响(例如,数据中没有长期趋势),但是随着时间的推移,每个方向都朝着随机的方向前进,这可能是有道理的。同样,这取决于应用程序。 T日志Ëÿ一世ĴŤSite

请注意,您可以在有或没有随机效应的情况下拟合模型,以查看是否正在发生这种情况-固定模型中应无效应,而后续模型中应有明显的随机效应。我必须提醒您,这样的决定通常是基于对应用程序的理解而不是通过模型选择来更好地做出的。


2
(+1):为每个模型写出模型公式确实是使R符号更透明的最佳方法;做得好!
ocram 2012年

@Macro关于上述方程式的一个问题(感谢他们顺便说一句)-它们中是否也包含通常的误差项?如果是这样,该术语的下标是什么?
Fomite

2
嗨-编写GLM的一种方法是作为(或“链接”版本)的模型,就像我在这里所做的那样。如果正确指定了模型,则期望值没有错误项。要回答你的问题,在GLMS我们指定的分布的。线性模型中的“剩余”随机性由正态分布误差项表示。但是,在非线性GLM(例如泊松,逻辑)中,存在“内在”的随机性,因为知道泊松的比率或贝努利试验的成功概率并不能使您无误地预测实现。希望这可以帮助。Y i j | XËÿ一世Ĵ|Xÿ一世Ĵ|X
2012年

11

您应该注意,T模型不是随机效应,而是固定效应。随机效应仅仅是那些后出现的效果|一个在lmer公式!

您可以在这个常见问题解答中找到关于此规范的详细讨论。

从这个问题出发,您的模型应给出以下信息(以达到固定效果T):

  • 全球倾斜
  • 随机斜率项,用于指定每个级别的总斜率的偏差 Site
  • 随机斜率之间的相关性。

正如@ mark999所说,这确实是一个通用规范。在重复测量设计中,通常希望所有重复测量(对象内)因子具有随机斜率和相关性。

请参见以下论文中的一些示例(我经常在这里引用):

Judd,CM,Westfall,J.,&Kenny,DA(2012)。将刺激因素视为社会心理学中的随机因素:一种新的综合解决方案,解决了普遍但基本上被忽略的问题。人格与社会心理学杂志,103(1),54-69。doi:10.1037 / a0028347


2
生态学中的类似参考文献:Schielzeth,Holger和Wolfgang Forstmeier。2009。“超出支持范围的结论:混合模型中的过分估计”。行为生态学20(2)(3月1日):416–420。doi:10.1093 / beheco / arn145。beheco.oxfordjournals.org/content/20/2/416
本·博克

1

当您对它的参数本身并不特别感兴趣时,某些东西应该只出现在随机部分中,但需要包括它以避免依赖数据。例如,如果孩子嵌套在班级中,则通常只希望孩子具有随机效果。


1
也许我对您有误解,但我会认为,对同一变量具有固定和随机效应比仅具有随机效应的变量更常见。在Pinheiro和Bates的书中,对同一变量具有固定和随机的影响并不罕见。
mark999 2012年

2
据我了解,@ MichaelChernick如果您对同一变量具有固定效果和随机效果,则固定效果是总体中的总体效果,而随机效果允许每个对象使用不同的变量效果。Pinheiro和Bates中有几个示例。
mark999 2012年

2
@PeterFlom,重新:“如果孩子嵌套在班级中,通常只希望孩子具有随机效果。” 我认为您的意思是上课是随机效应。除非数据中进一步嵌套(例如,对孩子进行重复测量),否则不会识别出孩子水平的随机影响。
2012年

1
@macro是的,这就是我的意思,对不起。术语变得非常混乱!这可能就是为什么盖尔曼避免使用“固定”和“随机”的术语
彼得·弗洛姆-恢复莫妮卡

2
@迈克尔,我同意你的看法。在这些类型的层次模型中,随机效应是由分组变量定义的(与其他多元模型(例如空间索引数据集,其中“分组”变量不断变化)相反)。在OP的问题中,Site将被称为随机效应,不是TA或其他任何事物。以这种方式思考,Site显然不能同时固定和随机地产生影响,因为无法将两者相互区分。您可以为变量设置固定系数和随机系数,但这是一个不同的问题。
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.