如何在glmer输出中解释“固定效果的相关性”?


26

我有以下输出:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

我所有的连续变量(s在变量名前用小写表示)均已标准化(z得分)。season是具有2个级别(早期和晚期)crop的类别变量,并且是具有3个级别(玉米,饲料和大豆)的类别变量。

固定效应矩阵的这种相关性确实使我感到困惑,因为当我查看变量对的简单回归时,所有相关性都具有相反的符号。即,固定效应矩阵的相关性表明,cropforage和之间存在很强的正相关性,而sbare事实上,这些变量之间存在非常强的负相关性-与玉米和大豆作物相比,牧草作物的裸地往往少得多。成对的连续变量具有相同的问题,固定效应矩阵的相关性说明一切都与应有的相反……这可能是由于模型的复杂性(不是简单的回归)吗?变量是否标准化与事实有关吗?

谢谢。

Answers:


27

“固定效果的相关性”输出没有大多数人认为的直观含义。具体来说,与变量的相关性无关(如OP所述)。实际上,这与回归系数的预期相关性有关。尽管这可能表示多重共线性,但不一定如此。在这种情况下,它告诉您,如果您再次进行实验,并且偶然发现的系数cropforage变小,的系数也可能也会变大sbare

在处理lme4 Baayen的部分著作《分析语言数据:使用R进行统计学的实用介绍》中,他压制了输出的那部分,并声明仅在特殊情况下才有用。 是一个listserv消息,Bates亲自描述了如何解释输出的那部分:

它是固定效应估计量的近似相关性。(我应该加上“ approximate”一词,因为我应该这样做,但是在这种情况下,近似值非常好。)我不确定如何对此进行更好的解释。假设您从模型中的参数中获取了MCMC样本,那么您希望固定效果参数的样本显示出类似此矩阵的相关结构。


3
抱歉,这可能是一个愚蠢的问题,但是为什么考虑这种相关性很重要?我的意思是,在什么情况下应该考虑该输出?
mtao

1
@Teresa这取决于您使用它的目的。如果您在乎解释,那么它在告诉您两种效果的来源是多么令人困惑。如果您关心预测,它会告诉您其他预测模型的外观,并提示您如果删除了预测变量,模型可能会如何变化。
russellpierce

1
因此,假设我在输出中有两个变量,例如相关性为0.90。在解释方面,我认为我应该删除其中之一,因为它们“容易混淆”并且似乎在传达相同的信息。至于预测,如果我放弃其中之一,其他模型就不应该改变太多,因为它们是相关的,对吗?还是我误解了?
mtao

3
您知道,我想您是在回应我的正确说法;但是,反思后,我不确定自己是100%正确。开启一个新问题可能会为您提供最好的服务-这将使您对问题的关注更多,并增加您收到正确答案的可能性。
russellpierce

1
@russellpierce,感谢您的回答。但是有一个问题,我了解到当预测变量相互关联时会发生多重共线性。但是在您的回答中,您说的是回归系数的相关性(而不是预测变量的相关性)可能说明多重共线性。为什么不仅仅将预测变量本身而不是估计的系数相关?

0

如果负相关和正相关的值相同,而仅其符号不同,则表示您错误地输入了变量。但我认为情况并非如此,因为您的统计数据似乎已经相当先进。

您遇到的不一致可能是并且可能是由多重共线性引起的。这意味着当一些变量共享某些重叠效果时,或者换句话说,它们自身是相关的。例如,对变量“生长速率”和“肿瘤大小”建模可能会导致多重共线性,因为较大的肿瘤本身可能(而且在被检测之前)具有较高的生长速率。这会混淆模型。而且,如果您的模型很少有相互关联的自变量,则解释结果有时会变得非常困难。有时甚至会导致完全奇怪的系数,甚至导致某些相关的符号相反的程度。

您应该首先检测多重共线性的来源并加以处理,然后重新运行分析。


1
-1; 误导。OP没有错误输入变量,多重共线性可能不是问题。原始固定效果之间的相关性也许可以说明这一点,但是辛普森的悖论可能使这种方法将您引向错误的方向。
russellpierce

1
为什么会“误导”?哪一部分令人误解?我讲得很清楚,避免得出明确的结论。我所说的确实是多重共线性符号之一,告诉我们我们也应该检查VIF。但是我不知道您怎么知道或确定“ OP没有错误输入他的变量,并且多重共线性可能不是问题。”
维克(Vic)

1
除此之外,您甚至还没有完全阅读我的帖子(并对其打了个反对票,并称其为误导性内容)。如果有的话,您已经看到我建议OP应该检查VIF(作为multiC的官方指标),以确保这些高相关性是否真的指向MC?但无论如何,只要是没有傲慢和人身攻击的地方,我就愿意学习。
维克(Vic)

1
@Vic:直到现在才看到您的评论。我并不是要您将我的回应视为人身攻击。我认为这是一种误导,因此我提供了我认为是上述正确答案的信息。当时我完整阅读了您的帖子。我不知道我是否浏览了评论。我支持我的不赞成投票。
russellpierce 2014年

1
……但我确实允许我在该判断中可能会犯错。但是,似乎更好地解释了为什么我拒绝投票而不是仅仅拒绝投票。
russellpierce 2014年

0

通过将模型的“ vcov”转换为相关矩阵,可以获得固定效果之间的那些相关性。如果fit是您安装的lme4型号,则

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

固定效应之间的相关性是非对角线项。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.