情节的解释(glm.model)


30

谁能告诉我如何解释“残差与拟合”,“正常q-q”,“比例位置”和“残差与杠杆”图?我正在拟合二项式GLM,将其保存然后绘制。


4
您知道在处理常规线性回归时如何解释这些图吗?因为那应该是您的起点。
史蒂夫·S

Answers:


55

R没有独特的plot.glm()方法。当您使用glm()并运行模型时plot(),它会调用?plot.lm,它适用于线性模型(即具有正态分布误差项)。

:一般情况下,这些地块的含义(至少对于线性模型),可在各种简历现有线程(例如了解到残差对拟合 QQ-地块在好几个地方;:123规模化定位 ; 残差vs杠杆)。但是,当所讨论的模型是逻辑回归时,这些解释通常无效。

更具体地说,这些图通常会“看起来很有趣”,并导致人们相信模型完全正确时存在问题。我们可以通过一些简单的仿真来查看这些图,我们知道模型是正确的:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

现在让我们看一下我们从中得到的图plot.lm()

在此处输入图片说明

无论是Residuals vs FittedScale-Location情节看起来像有与模型的问题,但我们知道没有任何。这些用于线性模型的图,在与逻辑回归模型一起使用时,常常容易引起误解。

让我们看另一个例子:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

在此处输入图片说明

现在所有的情节看起来都很奇怪。

那么这些情节向您展示了什么?

  • Residuals vs Fitted图可以帮助您查看,例如,是否错过了曲线趋势。但是,逻辑回归的拟合性本质上是曲线的,因此您可以在残差中具有奇特的趋势,而没有任何缺陷。
  • Normal Q-Q图可帮助您检测残差是否呈正态分布。但是,偏差残差不必为了使模型有效就可以正态分布,因此残差的正态/非正态不一定告诉您任何信息。
  • Scale-Location图可以帮助您识别异方差。但是逻辑回归模型本质上几乎是异方差的。
  • Residuals vs Leverage可以帮助您识别可能的异常值。但是逻辑回归中的异常值不一定与线性回归中的异常值相同,因此此图可能会或可能不会有助于识别它们。

这里简单的带回家的教训是,很难使用这些图来帮助您了解逻辑回归模型的状况。人们最好不要在进行逻辑回归时完全看这些图,除非他们具有相当的专业知识。


5
真可惜,这是一个了不起的反应。
d8aninja

@gung您能说一声我们该怎么办?是否有QQ,残存vs拟合的替代方案?例如,我绘制了泊松链接GLM,但我不知道如何分析它是否合适
GRS

2
@GRS,请尝试阅读此内容
gung-恢复莫妮卡

@您的所有答案都很详细清晰。除了从包括本站点在内的多种资源中阅读信息之外,您还可以参考一本或两本好书/站点来获得对诊断图的理解的“相当大的专业知识”吗?我了解只有实践和经验才能掌握的技巧很少,但是如果您能参考任何关于特定细节的书/网站,那将有很大帮助。
Nisha Arora博士

@DrNishaArora,不是我真正意识到的。有一些与LR相关的,但出于上述原因,它们不会花很多时间在这些情节上。
gung-恢复莫妮卡

0
  1. 残差vs拟合-不应有强模式(温和模式不是问题,请参阅@gung的答案),也没有异常值,残差应随机分布在零附近。
  2. 正态QQ-残差应围绕对角线,即应呈正态分布(有关QQ图,请参见Wiki)。此图有助于检查它们是否近似正常。
  3. 比例位置-如您所见,在Y轴上也有残差(如残差与拟合图),但是它们是按比例缩放的,因此与(1)类似,但在某些情况下效果更好。
  4. 残差vs杠杆-它有助于诊断异常情况。与之前的图中一样,对外围案例进行了编号,但是在该图中,如果有任何案例与其余数据有很大不同,它们将被绘制在细红线下方(请参阅Cook距离上的Wiki)。

阅读有关回归假设的更多信息,因为在许多方面都有类似的假设(例如here或R here的回归教程)。


2
在@gung的glm上下文中,此响应是错误的,在上述响应中也是如此。如果您正在寻找此问题的答案,请忽略此响应。如果您是此回复的作者,请查看上面gung的回答。如果您同意,则应考虑删除此答复,因为这会引起误解。
科林

@colin您想对此答案发表评论吗?我和第二个答案之间的唯一区别是,gung进入了更多细节……
蒂姆

3
您描述了如何在线性回归的情况下使用这些图。gung描述了为什么这些解释在这种情况下会失败的原因,因为它们已被应用于二项式glm模型。因此,如果用户按照您的建议解释了这些诊断图(在lm的情况下您的建议会有所帮助),他们会错误地得出结论,他们的模型违反了glm的假设,而实际上并没有。
科林

您写道:“残差与拟合-不应有任何模式,也没有离群值,残差应随机分布在0左右。” gung写道:“例如,残差与拟合曲线可以帮助您查看是否遗漏了曲线趋势。但是逻辑回归的拟合本质上是曲线的,因此您可以在残差中看到奇特的趋势而没有任何变化不对。” ...你们当中一定是错的。
科林

2
我同意,这不是黑白的,但是在很多情况下,趋势都很明显,但是在特定的glm假设下,指定的模型完全合适。因此,断言:“应该没有模式,也没有离群值,残差应该在0附近随机分布”。很容易解释为,如果存在某种模式,则您违反了模型假设。不是这种情况。
科林
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.