Answers:
TL; DR:如果群集数量足够,并且单例群集的比例不“过高”,则在混合效应模型中每个群集的最小样本大小为1
较长版本:
通常,聚类的数量比每个聚类的观察数更重要。有了700,显然那里没有问题。
小集群大小非常普遍,尤其是在遵循分层抽样设计的社会科学调查中,并且有大量研究调查了集群级别的样本大小。
虽然增加聚类规模会增加估计随机效应的统计能力(Austin&Leckie,2018),但较小的聚类规模不会导致严重的偏见(Bell等,2008; Clarke,2008; Clarke&Wheaton,2007; Maas&Hox ,2005)。因此,每个群集的最小样本大小为1。
特别是,Bell等人(2008)进行了蒙特卡罗模拟研究,其中单例群集(仅包含一个观测值的群集)的比例在0%至70%之间,并且发现,如果群集数量很大(〜 500)小簇大小几乎对偏差和1型错误控制没有影响。
他们还报告了在任何建模方案下模型收敛的问题很少。
对于OP中的特定场景,我建议首先使用700个集群来运行模型。除非对此有明确的问题,否则我将不愿合并集群。我在R中运行了一个简单的模拟:
在这里,我们创建一个残差方差为1的聚类数据集,单个固定效应也为1,700个聚类,其中690个为单例,而10个只有2个观测值。我们运行了1000次仿真,并观察了估计的固定和残余随机效应的直方图。
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
如您所见,固定效应的估计非常好,而残余随机效应似乎略有向下偏斜,但并非如此:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
OP特别提到了群集级随机效应的估计。在上面的模拟中,随机效应只是作为每个Subject
ID 的值(按比例缩小100)而创建的。显然,这些不是正态分布的,这是线性混合效应模型的假设,但是,我们可以提取集群级效应的(条件模式)并将其与实际Subject
ID相对应:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
直方图在一定程度上偏离正态性,但这是由于我们模拟数据的方式所致。估计的和实际的随机效应之间仍然存在合理的关系。
参考文献:
Peter C.Austin&George Leckie(2018)在多级线性和逻辑回归模型中测试随机效应方差成分时,簇数和簇大小对统计功效和I型错误率的影响,《统计计算与模拟杂志》,88: 16,3151-3163,DOI:10.1080 / 00949655.2018.1504945
贝尔,文学士,费伦,JM和克罗姆里,法学博士(2008)。多级模型中的集群大小:稀疏数据结构对两级模型中点和区间估计的影响。JSM程序,调查研究方法部分,1122-1129。
Clarke,P.(2008年)。什么时候可以忽略组级别的聚类?具有稀疏数据的多级模型与单级模型。流行病学与社区卫生杂志,62(8),752-758。
Clarke,P.和Wheaton,B.(2007)。解决数据稀疏的情况下的人口研究使用聚类分析创建综合社区。社会学方法与研究,35(3),311-351。
Maas CJ和Hox JJ(2005)。多层次建模的足够样本量。方法,1(3),86-92。
在混合模型中,随机效应通常是使用经验贝叶斯方法估算的。这种方法的一个特点是收缩。即,估计的随机效应向固定效应部分描述的模型的整体均值缩小。收缩程度取决于两个因素:
与误差项的方差的大小相比,随机效应的方差的大小。相对于误差项的方差,随机效应的方差越大,收缩程度越小。
集群中重复测量的次数。与具有较少重复测量的聚类相比,具有多个重复测量的聚类的随机效应估计向总平均值的收缩较小。
就您而言,第二点更相关。但是,请注意,建议的合并群集解决方案也可能会影响第一点。