这个答案不是基于我的知识,而是引用了Bolker等人的观点。(2009年)发表在《生态与进化趋势》杂志上的一篇有影响力的论文中。由于该文章不是开放获取的(尽管在Google学术搜索中可能会证明是成功的,但我认为我引用了一些重要的文章可能有助于解决部分问题。因此,这并不是我自己提出的,但我认为它以一种非常直接,易于理解的书写方式代表了关于GLMM(包括诊断程序)的最佳压缩信息。如果由于某种原因该答案不适合,我将直接删除它。在有关诊断的问题方面非常有用大胆的。
第127页
面对非正态数据的研究人员经常尝试捷径,例如通过使用非参数检验或依靠经典ANOVA对非正态性进行均衡设计的鲁棒性来转换数据以实现方差的均一性和均一性[15]。他们可能会完全忽略随机效应(因此进行伪复制)或将其视为固定因素[16]。但是,此类快捷方式可能会失败(例如,无法通过转换使具有许多零值的计数数据正常)。即使它们成功了,它们也可能违反统计假设(即使非参数检验也做出了假设,例如,各组之间方差的均一性)或限制了推论的范围(不能将对固定影响的估计外推到新的组)。与其将其数据整合到经典的统计框架中,研究人员应使用与其数据匹配的统计方法。广义线性混合模型(GLMM)结合了在生态学和进化中广泛使用的两个统计框架,线性混合模型(包含随机效应)和广义线性模型(通过使用链接函数和指数族处理非正规数据)的属性。正态分布,泊松分布或二项式分布)。GLMM是分析涉及随机效应的非正态数据的最佳工具:原则上,必须要做的就是指定随机效应的分布,链接函数和结构。线性混合模型(包含随机效应)和广义线性模型(使用链接函数和指数族[例如,正态,泊松或二项式]分布处理非正态数据)。GLMM是分析涉及随机效应的非正态数据的最佳工具:原则上,必须要做的就是指定随机效应的分布,链接函数和结构。线性混合模型(包含随机效应)和广义线性模型(使用链接函数和指数族[例如,正态,泊松或二项式]分布处理非正态数据)。GLMM是分析涉及随机效应的非正态数据的最佳工具:原则上,必须要做的就是指定随机效应的分布,链接函数和结构。
页面129,框1:
该残留物表明过度分散,所以我们用改装准泊松模型的数据。尽管估计的规模参数很大(10.8),但探索性图表并未发现在个体,基因型或群体水平上的异常值。我们使用准AIC(QAIC),将一个自由度用于随机效应[49],用于随机效应,然后用于固定效应模型选择。
页面133,方框4:
在这里,我们概述了用于构建完整(最复杂)模型的通用框架,这是GLMM分析的第一步。按照此过程,可以如正文和图1中所述评估参数并比较子模型。
指定固定效果(治疗或协变量)和随机效果(实验,空间或时间范围,个体等)。仅包括重要的互动。根据经验法则(先于随机效应将> 5–6随机效应水平,将每个治疗水平或实验单位> 10–20个样本),并从中获得足够的样本量以前的研究[64,65]。
选择误差分布和链接功能(例如,用于计数数据的泊松分布和对数链接,对于比例数据,选择二项式分布和对数链接)。
图形检查:类别之间的数据差异(通过链接功能转换)是否均匀?转换后的数据的响应相对于连续预测变量是否线性?有离群的个人或群体吗?组内的分布是否与假定的分布匹配?
将固定效果的GLM拟合到全部(合并的)数据集以及随机因素的每个级别内[28,50]。估计参数应大致正态分布在各个组中(组级参数可能具有较大的不确定性,尤其是对于样本量较小的组)。根据需要调整模型(例如,更改链接功能或添加协变量)。
安装完整的GLMM。计算机内存不足或速度太慢:降低模型复杂度。如果对数据的子集进行估算成功,请尝试使用更有效的估算算法(例如PQL,如果适用)。无法收敛(警告或错误):降低模型复杂性或更改优化设置(确保得到的答案有意义)。尝试其他估算算法。零方差成分或奇异性(警告或错误):检查模型是否正确定义和可识别(即,理论上可以估计所有成分)。降低模型复杂度。向模型中添加信息(其他协变量,或针对随机效应的新分组)可以缓解问题,将连续协变量的均值减去其均值即可将其居中[50]。如有必要,从整个模型中消除随机效应,删除(i)具有较少内在生物学兴趣的术语,(ii)具有非常小的估计方差和/或较大不确定性的术语,或(iii)交互作用术语。(收敛误差或零方差可能表示数据不足。)
χ2
残差图应用于评估过度分散,并且转换后的方差在各个类别之间应是同质的。文章中没有任何地方提到残差应该是正态分布的。
我认为之所以有相反的说法,反映了GLMM(第127-128页)...
……甚至对于统计学家而言,使用起来也非常具有挑战性。尽管有几种软件包可以处理GLMM(表1),但很少有生态学家和进化生物学家意识到选择的范围或可能的陷阱。在审查Google Scholar自2005年以来发表的有关生态与进化的论文时,在537个GLMM分析中,有311个(58%)以某种方式不当使用了这些工具(请参阅在线补充材料)。
而这里使用GLMMs参数包括诊断几个完整的工作的例子。
我意识到这个答案更像是评论,应该这样对待。但是评论部分不允许我添加这么长的评论。另外,由于我认为本文对于这次讨论是有价值的(但不幸的是在付费壁垒后面),因此我认为在这里引用重要的段落会很有用。
被引论文:
[15]-GP Quinn,MJ Keough(2002):针对生物学家的实验设计和数据分析,剑桥大学出版社。
[16]-MJ Crawley(2002):统计计算:使用S-PLUS进行数据分析的简介,John Wiley&Sons。
[28]-JC Pinheiro,DM贝茨(2000):S和S-PLUS中的混合效应模型,Springer。
[49]-F. Vaida,S。Blanchard(2005):混合效应模型的条件Akaike信息。Biometrika,92,第351–370页。
[50]-A. Gelman,J。Hill(2006):使用回归和多层次/层次模型进行数据分析,剑桥大学出版社。
[64]-NJ Gotelli,AM Ellison(2004):《生态统计入门》,锡那尔协会。
[65]-FJ Harrell(2001):回归建模策略,Springer。
[66]-JK Lindsey(1997年):《应用广义线性模型》,Springer。
[67]-W. Venables,BD Ripley(2002年):S出版社,Springer着的《现代应用统计》。
glm.diag.plots
说,这是jackknifed越轨残留(我怀疑这样的区分是很重要的)。另外,我收集到您有计数数据;您可能需要关注这一事实。例如,在某种意义上,计数被认为是异方差的。用于计数回归的诊断图应对您有所帮助(尽管它不能解决混合效应方面的问题)。