随机效应模型中每个群集的最小样本量


10

随机效应模型中每个聚类的观察数量是否合理?我有1,500个样本,其中700个聚类被建模为可交换随机效应。我可以选择合并群集,以构建较少但较大的群集。我想知道如何选择每个聚类的最小样本量,以便在预测每个聚类的随机效应时获得有意义的结果?有一篇很好的论文可以解释这一点吗?

Answers:


13

TL; DR:如果群集数量足够,并且单例群集的比例不“过高”,则在混合效应模型中每个群集的最小样本大小为1

较长版本:

通常,聚类的数量比每个聚类的观察数更重要。有了700,显然那里没有问题。

小集群大小非常普遍,尤其是在遵循分层抽样设计的社会科学调查中,并且有大量研究调查了集群级别的样本大小。

虽然增加聚类规模会增加估计随机效应的统计能力(Austin&Leckie,2018),但较小的聚类规模不会导致严重的偏见(Bell等,2008; Clarke,2008; Clarke&Wheaton,2007; Maas&Hox ,2005)。因此,每个群集的最小样本大小为1。

特别是,Bell等人(2008)进行了蒙特卡罗模拟研究,其中单例群集(仅包含一个观测值的群集)的比例在0%至70%之间,并且发现,如果群集数量很大(〜 500)小簇大小几乎对偏差和1型错误控制没有影响。

他们还报告了在任何建模方案下模型收敛的问题很少。

对于OP中的特定场景,我建议首先使用700个集群来运行模型。除非对此有明确的问题,否则我将不愿合并集群。我在R中运行了一个简单的模拟:

在这里,我们创建一个残差方差为1的聚类数据集,单个固定效应也为1,700个聚类,其中690个为单例,而10个只有2个观测值。我们运行了1000次仿真,并观察了估计的固定和残余随机效应的直方图。

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

在此处输入图片说明 在此处输入图片说明

如您所见,固定效应的估计非常好,而残余随机效应似乎略有向下偏斜,但并非如此:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

OP特别提到了群集级随机效应的估计。在上面的模拟中,随机效应只是作为每个SubjectID 的值(按比例缩小100)而创建的。显然,这些不是正态分布的,这是线性混合效应模型的假设,但是,我们可以提取集群级效应的(条件模式)并将其与实际SubjectID相对应:

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

在此处输入图片说明

在此处输入图片说明

直方图在一定程度上偏离正态性,但这是由于我们模拟数据的方式所致。估计的和实际的随机效应之间仍然存在合理的关系。

参考文献:

Peter C.Austin&George Leckie(2018)在多级线性和逻辑回归模型中测试随机效应方差成分时,簇数和簇大小对统计功效和I型错误率的影响,《统计计算与模拟杂志》,88: 16,3151-3163,DOI:10.1080 / 00949655.2018.1504945

贝尔,文学士,费伦,JM和克罗姆里,法学博士(2008)。多级模型中的集群大小:稀疏数据结构对两级模型中点和区间估计的影响。JSM程序,调查研究方法部分,1122-1129。

Clarke,P.(2008年)。什么时候可以忽略组级别的聚类?具有稀疏数据的多级模型与单级模型。流行病学与社区卫生杂志,62(8),752-758。

Clarke,P.和Wheaton,B.(2007)。解决数据稀疏的情况下的人口研究使用聚类分析创建综合社区。社会学方法与研究,35(3),311-351。

Maas CJ和Hox JJ(2005)。多层次建模的足够样本量。方法,1(3),86-92。


1
+1好答案。相关:我在逻辑多层次模型上遇到了麻烦,其中大约一半的集群只有1个观测值。参见此处:stats.stackexchange.com/a/358460/130869
Mark White,

4

在混合模型中,随机效应通常是使用经验贝叶斯方法估算的。这种方法的一个特点是收缩。即,估计的随机效应向固定效应部分描述的模型的整体均值缩小。收缩程度取决于两个因素:

  1. 与误差项的方差的大小相比,随机效应的方差的大小。相对于误差项的方差,随机效应的方差越大,收缩程度越小。

  2. 集群中重复测量的次数。与具有较少重复测量的聚类相比,具有多个重复测量的聚类的随机效应估计向总平均值的收缩较小。

就您而言,第二点更相关。但是,请注意,建议的合并群集解决方案也可能会影响第一点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.