双胞胎研究数据的线性混合效应建模


14

假设我有一些响应变量,该变量是从第个家庭中的第个兄弟姐妹测得的。另外,从每个受试者同时收集了一些行为数据。我正在尝试使用以下线性混合效应模型来分析情况: j i x i jyijjixij

yij=α0+α1xij+δ1ixij+εij

其中和分别是固定截距和斜率, 是随机斜率,而是残差。α 1 δ 1 ε Ĵα0α1δ1iεij

随机效应和残余的假设是(假设每个家庭中只有两个同胞) ε Ĵδ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

其中是未知方差参数,方差-协方差结构是2 x 2形式的对称矩阵 - [Rτ2R

(r12r122r122r22)

对两个同胞之间的相关性进行建模。

  1. 这是进行此类兄弟学习的合适模型吗?

  2. 数据有点复杂。在这50个家庭中,近90%是双卵双胞胎(DZ)。对于其他家庭,

    1. 两个只有一个兄弟姐妹;
    2. 两个有一对DZ对和一个兄弟姐妹;和
    3. 两个有一对DZ对,外加两个同胞。


    我相信lmeR软件包nlme可以轻松处理(1)丢失或不平衡的情况。我的麻烦是,如何处理(2)和(3)?我可以想到的一种可能性是将(2)和(3)中的这四个家族中的每个分成两个,以便每个子家族都有一个或两个同胞,因此上述模型仍然可以应用。这样好吗 另一种选择是简单地丢弃(2)和(3)中多余的一两个兄弟姐妹的数据,这似乎是浪费。有更好的方法吗?

  3. 似乎lme允许将值固定在残差方差-协方差矩阵,例如 = 0.5。施加相关结构是否有意义,还是我应该根据数据简单地对其进行估算?R r 2 12rRr122


1
什么分别表示?xj
Macro

@Macro:感谢您发现这一点。刚刚修改了OP,以表明是一个解释性变量,是每个同级的行为度量。xij
bluepole

1
非常有趣的问题和应用。我可能会遗漏一些东西,但在我看来,该模型过于参数化了。可以将相关误差有效地分解为“未共享”分量和“共享”分量,后者具有与相同的功能。您必须删除,使的iid错误,或施加诸如类的约束以进行可识别性-您是否在这样做是为了使环境/遗传组件脱钩同级相关?δ 0 δ 0 ε - [R 2 12 =0.5ϵi1,ϵi2δ0iδ0iϵr122=.5
2012年

@Macro:您是对的:模型中不需要。感谢您指出了这一点!奇怪的是没有抱怨这种冗余。δ0ilme
bluepole

您是否仍在使用这个过分参数化的模型(问题的那一部分尚未编辑)?
Macro

Answers:


10

您可以通过使用虚拟变量并在该虚拟变量中包含随机斜率,在统一模型中包括双胞胎和非双胞胎。由于所有家庭最多只有一对双胞胎,因此这将相对简单:

如果家庭中的兄弟是双胞胎,则令,否则为0。我假设您还希望双胞胎与普通同胞的随机斜率有所不同-如果没有,则在下面的模型中不要包含项。Aij=1jiηi3

然后拟合模型:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • α0,α1是固定效果,如您所指定

  • η 1Ĵ = 1ηi0是“基准”同级随机效应,而是附加的随机效应,可使双胞胎比常规同胞更加相似。相应的随机效应方差的大小可量化相似兄弟姐妹的数量以及与正常兄弟姐妹的相似双胞胎数量。注意,该模型对孪生和非孪生相关性都进行了描述-孪生相关性是通过适当地对随机效应求和(插入)来计算的。ηi1Aij=1

  • η 3 X Ĵηi2和具有相似的作用,只是它们充当的随机斜率ηi3xij

  • εij是iid错误项-请注意,根据随机截距而不是相关的残余错误,我编写的模型略有不同。

您可以使用R包来拟合模型lme4。在因变量为y,伪变量为A,预测变量为x,伪变量与预测变量的乘积为AxfamID是系列的标识符编号的代码中。假定您的数据存储在数据框中D,并且这些变量作为列。

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

可以通过键入查看随机效果变量和固定效果估计值summary(g)。注意,该模型允许随机效应相互自由关联。

在许多情况下,假设随机效应之间具有独立性可能更有意义(或更容易解释)(例如,通常是通过这种假设来分解遗传与环境家族相关性),在这种情况下,您应该输入

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 

这确实是一个不错的解决方案,我喜欢!很快会尝试的,然后看看...非常感谢!
bluepole

别客气。如果您发现此解决方案有帮助,请考虑接受答案:)
Macro

有两个问题:1)由于大多数受试者都是同卵双生子,因此您的方法似乎无法模拟DZ双生子之间的相关性。2)只有4个家庭有兄弟姐妹。我担心很难仅基于这四个家庭来估计兄弟姐妹的随机影响。由于DZ双胞胎对与另一个同胞之间的差异相对较小(主要是环境因素,而非遗传因素),也许我可以简单地忽略双胞胎与同胞之间的细微差别,并将这几个同胞视为具有随机效应的双胞胎,就像您的模型一样或与我的OP中的相关残差有关。
bluepole

这种方法可以模拟双胞胎之间的相关性。例如,如果它们的预测变量值为0,则双胞胎之间的相关性为其中是的方差和是误差项的方差。当预测值不为0时,此表达式还将涉及其他两个随机效应的方差。 σ 2 0σ 2 1 η0η1个σ
σ02+σ12σ02+σ12+σε2
σ02,σ12ηi0,ηi1σε2
2012年

没错,由于非很少,和的方差将很难估计。您可以将它们排除在外,但是使用我建议的模型并不会造成任何损失,但可能会简化计算。如果这样做,您实际上是在假设非双胞胎兄弟姐妹是独立的。但是您仍然可以使用这些观察值来估计平均参数(即不要将它们排除在模型拟合之外)。或者,正如您所说,您可以像常规兄弟姐妹一样对待双胞胎,而根本不需要虚拟编码。 η 2ηi0ηi2
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.