即使在具有适当相关结构的模型中,自相关残差模式仍然存在吗?如何选择最佳模型?
语境 该问题使用R,但与一般统计问题有关。 我正在分析死亡率因素(由于疾病和寄生虫引起的死亡率百分比)对蛾类种群随时间推移的增长率的影响,其中每年从12个地点采样幼虫种群,为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。 一个简单的广义线性模型的残差(增长率〜%疾病+%寄生病+年)随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此,同样形式的广义最小二乘模型也适用于具有适当相关结构的数据,以处理时间自相关,例如复合对称性,自回归过程阶数1和自回归移动平均相关结构。 所有模型均包含相同的固定效果,使用AIC进行比较,并通过REML进行拟合(以允许通过AIC比较不同的相关结构)。我正在使用R软件包nlme和gls函数。 问题1 当相对于时间绘制时,GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中,这种模式也会一直存在吗? 我在第二个问题下面模拟了R中的一些简化但相似的数据,该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示,现在我知道这是错误的(请参阅答案)。 问题2 我已经为GLS模型拟合了所有可能的合理相关结构,但是实际上没有一个比没有任何相关结构的GLM更好:只有一个GLS模型略胜一筹(AIC分数= 1.8低),而其余所有模型更高的AIC值。但是,只有当所有模型都由REML拟合时才是这种情况,而GLS模型显然要好得多,而不是ML,但是我从统计资料中了解到,出于某些原因,您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。 鉴于数据具有明显的时间自相关性质,如果没有模型比简单的GLM更好,那么假设我使用的是合适的方法,那么最合适的方法来决定使用哪个模型进行推断(我最终想使用AIC比较不同的变量组合)? Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式 生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量: time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势: plot(time,y) 与带有随机变化的'x'的正线性关系: plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”: require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样,该模型在针对“时间”绘制时,在残差中显示出清晰的周期性模式: plot(time, m1$residuals) …