将二项式GLMM(glmer)拟合为比例或分数的响应变量


11

我希望有人可以帮助解决我认为相对简单的问题,我想我知道答案,但未经证实,这已经成为我无法确定的事情。

我有一些计数数据作为响应变量,我想测量该变量如何随某物的比例存在而变化。

更详细地,响应变量是在多个站点中昆虫物种的存在的计数,因此例如采样一个站点10次,并且该物种可能出现4次。

我想看看这是否与这些地点植物整体群落中一组植物物种的比例存在相关。

这意味着我的数据如下所示(这只是一个示例)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

数据还包括位置的随机效应。

我想到了两种方法,一种是lmer将昆虫转换成一定比例的线性模型(),例如

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

第二个是二项式GLMM(glmer),例如

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

我相信二项式聚光镜是正确的方法,但是它们会产生完全不同的结果。我似乎无法在网络上找到明确的答案,而仍然没有一点不确定性,并希望确保自己没有犯错。

任何帮助或对替代方法的见解将不胜感激。


Answers:


19

二项式GLMM可能是正确的答案。

  • 特别是对于少量到中等数量的样本(在您的示例中为9和10),响应变量的分布可能是异方差的(方差不是恒定的,尤其是系统地取决于平均值)。与Normality相比,这种方式很难转换-特别是对于某些预测变量值,其比例接近0或1时。这使GLMM成为一个好主意。
  • 您应该仔细检查/说明是否存在过度分散。如果每个位置只有一个观测值(即,数据框中有一个二项式样本/行),那么您的(1|Site)随机效应将自动处理(尽管请注意,请参阅Harrison 2015)
  • 如果先前的假设是正确的(每个位置只有一个二项式样本),那么您也可以将其作为常规二项式模型拟合(glm(...,family=binomial)在这种情况下,您还可以使用拟二项式模型(family=quasibinomial)作为更简单的替代方法考虑到过度分散
  • 如果您愿意,还可以将GLMM以比例作为响应,如果您将weights参数设置为等于样本数,则:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")

    (这应该与glmer()您在问题中遇到的问题产生相同的结果)。

哈里森,哈维尔A.“ 生态学和进化中二项式数据中过度分散建模的观察水平随机效应与Beta-二项式模型的比较。” PeerJ 3(2015年7月21日):e1114。doi:10.7717 / peerj.1114。


嗨,本,非常感谢您明确而全面的回答!
ALs
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.