情节的解释（glm.model）

谁能告诉我如何解释“残差与拟合”，“正常q-q”，“比例位置”和“残差与杠杆”图？我正在拟合二项式GLM，将其保存然后绘制。

— 夏天
source

您知道在处理常规线性回归时如何解释这些图吗？因为那应该是您的起点。

— 史蒂夫·S

Answers:

R没有独特的plot.glm()方法。当您使用glm()并运行模型时plot()，它会调用？plot.lm，它适用于线性模型（即具有正态分布误差项）。

：一般情况下，这些地块的含义（至少对于线性模型），可在各种简历现有线程（例如了解到残差对拟合 QQ-地块在好几个地方;：1，2，3，规模化定位 ; 残差vs杠杆）。但是，当所讨论的模型是逻辑回归时，这些解释通常无效。

更具体地说，这些图通常会“看起来很有趣”，并导致人们相信模型完全正确时存在问题。我们可以通过一些简单的仿真来查看这些图，我们知道模型是正确的：

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

现在让我们看一下我们从中得到的图plot.lm()：

在此处输入图片说明

无论是Residuals vs Fitted和Scale-Location情节看起来像有与模型的问题，但我们知道没有任何。这些用于线性模型的图，在与逻辑回归模型一起使用时，常常容易引起误解。

让我们看另一个例子：

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

在此处输入图片说明

现在所有的情节看起来都很奇怪。

那么这些情节向您展示了什么？

该Residuals vs Fitted图可以帮助您查看，例如，是否错过了曲线趋势。但是，逻辑回归的拟合性本质上是曲线的，因此您可以在残差中具有奇特的趋势，而没有任何缺陷。
该Normal Q-Q图可帮助您检测残差是否呈正态分布。但是，偏差残差不必为了使模型有效就可以正态分布，因此残差的正态/非正态不一定告诉您任何信息。
该Scale-Location图可以帮助您识别异方差。但是逻辑回归模型本质上几乎是异方差的。
将Residuals vs Leverage可以帮助您识别可能的异常值。但是逻辑回归中的异常值不一定与线性回归中的异常值相同，因此此图可能会或可能不会有助于识别它们。

这里简单的带回家的教训是，很难使用这些图来帮助您了解逻辑回归模型的状况。人们最好不要在进行逻辑回归时完全看这些图，除非他们具有相当的专业知识。

— gung-恢复莫妮卡
source

真可惜，这是一个了不起的反应。

— d8aninja

@gung您能说一声我们该怎么办？是否有QQ，残存vs拟合的替代方案？例如，我绘制了泊松链接GLM，但我不知道如何分析它是否合适

— GRS

@GRS，请尝试阅读此内容。

— gung-恢复莫妮卡

@您的所有答案都很详细清晰。除了从包括本站点在内的多种资源中阅读信息之外，您还可以参考一本或两本好书/站点来获得对诊断图的理解的“相当大的专业知识”吗？我了解只有实践和经验才能掌握的技巧很少，但是如果您能参考任何关于特定细节的书/网站，那将有很大帮助。

— Nisha Arora博士

@DrNishaArora，不是我真正意识到的。有一些与LR相关的书，但出于上述原因，它们不会花很多时间在这些情节上。

— gung-恢复莫妮卡

残差vs拟合-不应有强模式（温和模式不是问题，请参阅@gung的答案），也没有异常值，残差应随机分布在零附近。
正态QQ-残差应围绕对角线，即应呈正态分布（有关QQ图，请参见Wiki）。此图有助于检查它们是否近似正常。
比例位置-如您所见，在Y轴上也有残差（如残差与拟合图），但是它们是按比例缩放的，因此与（1）类似，但在某些情况下效果更好。
残差vs杠杆-它有助于诊断异常情况。与之前的图中一样，对外围案例进行了编号，但是在该图中，如果有任何案例与其余数据有很大不同，它们将被绘制在细红线下方（请参阅Cook距离上的Wiki）。

阅读有关回归假设的更多信息，因为在许多方面都有类似的假设（例如here或R here的回归教程）。

— 蒂姆
source

在@gung的glm上下文中，此响应是错误的，在上述响应中也是如此。如果您正在寻找此问题的答案，请忽略此响应。如果您是此回复的作者，请查看上面gung的回答。如果您同意，则应考虑删除此答复，因为这会引起误解。

— 科林

@colin您想对此答案发表评论吗？我和第二个答案之间的唯一区别是，gung进入了更多细节……

— 蒂姆

您描述了如何在线性回归的情况下使用这些图。gung描述了为什么这些解释在这种情况下会失败的原因，因为它们已被应用于二项式glm模型。因此，如果用户按照您的建议解释了这些诊断图（在lm的情况下您的建议会有所帮助），他们会错误地得出结论，他们的模型违反了glm的假设，而实际上并没有。

— 科林

您写道：“残差与拟合-不应有任何模式，也没有离群值，残差应随机分布在0左右。” gung写道：“例如，残差与拟合曲线可以帮助您查看是否遗漏了曲线趋势。但是逻辑回归的拟合本质上是曲线的，因此您可以在残差中看到奇特的趋势而没有任何变化不对。” ...你们当中一定是错的。

— 科林

我同意，这不是黑白的，但是在很多情况下，趋势都很明显，但是在特定的glm假设下，指定的模型完全合适。因此，断言：“应该没有模式，也没有离群值，残差应该在0附近随机分布”。很容易解释为，如果存在某种模式，则您违反了模型假设。不是这种情况。

— 科林