诊断逻辑回归?


74

对于线性回归,我们可以检查诊断图(残差图,普通QQ图等),以检查是否违反了线性回归的假设。

对于逻辑回归,我很难找到解释如何诊断逻辑回归模型合适的资源。挖掘一些GLM的课程笔记,它只是指出检查残差对进行Logistic回归拟合的诊断没有帮助。

环顾互联网,似乎还有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行Hosmer-Lemeshow拟合优度测试。然后,我发现其他来源指出该测试可能高度依赖于实际的分组和截止值(可能不可靠)。

那么如何诊断逻辑回归拟合呢?


1
stats.stackexchange.com/questions/29271/…stats.stackexchange.com/questions/44643/…的可能重复(或特殊情况),尽管它们都没有真正为您解决的答案。
彼得·埃利斯

1
我建议您阅读斯科特·梅纳德(Scott Menard)的专着,不久前,该专着可在网络上免费获得。
rolando2

2
关于逻辑回归的拟合优度的这个问题可能会有所帮助(尽管拟合优度当然仅是模型诊断的一小部分):stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r-平方测量值是一份报告,cox / 3570
Stephan Kolassa,2012年

Answers:


39

我在评估逻辑回归模型的适用性时遇到了一些较新的技术,这些技术来自政治学期刊:

  • Greenhill,Brian,Michael D. Ward和Audrey Sacks。2011年。分离图:一种用于评估二元模型拟合的新视觉方法。美国政治科学杂志 55(4):991-1002
  • Esarey,Justin和Andrew Pierce。2012。评估拟合质量并测试二进制相关变量模型中的错误指定。政治分析 20(4):480-500在此预印PDF

这两种技术都旨在替代拟合优度检验(例如Hosmer和Lemeshow)并识别潜在的错误指定(尤其是方程式中所包含变量的非线性)。这些功能特别有用,因为经常会批评典型的R平方拟合度。

上面的两篇论文都利用了预测概率与情节中观察到的结果-避免了此类模型中残差的不清楚问题。残差的例子可能是对数似然或Pearson残差的贡献(尽管我相信还有更多)。另一个经常引起关注的度量(尽管不是残差)是DFBeta的度量(当从模型中排除观察值时系数估计的变化量)。请参阅Stata 中有关Logistic回归诊断的UCLA页中的示例以及其他潜在的诊断程序。

我没有用,但是我相信J. Scott Long的分类和有限因变量回归模型以简单的方式详细介绍了所有这些不同的诊断方法。


2
有大量的其他书籍用于逻辑回归(至少如果不是全部,则是部分)。我在论坛上看到了Agresti的各种分类数据分析教科书,Scott Menard,Hosmer和Lemeshow以及Frank Harrell的RMS书,这些都是我在各个论坛上推荐的。
安迪W

谢谢您的回答。我想我的问题没有简单的答案。我将看看您的建议。干杯。
ialm

23

这个问题的动机不足。必须有运行模型诊断的理由,例如

  • 改变模型以使其更好的潜力
  • 不知道要使用哪个定向测试(即非线性或交互性测试)
  • 未能把握到更改模型会轻易扭曲统计推断(标准误差,置信区间,)P

除了检查与代数回归规范正交的事物(例如,检查普通线性模型中的残差分布)以外,模型诊断会产生我认为可以解决的许多问题。对于二进制逻辑模型,尤其如此,因为它没有分布假设。

因此,通常最好花一些时间来指定模型,特别是对于那些认为没有任何先验证据表明线性的变量,不要假设其线性。在某些情况下,您可以预先指定一个必须适合的模型,例如,如果预测变量的数量很小,或者您允许所有预测变量都是非线性的,并且(正确地)假设没有任何相互作用。

任何认为可以使用模型诊断程序来更改模型的人都应在自举循环中运行该过程,以正确估计引起的模型不确定性。


4
我同意模型诊断应源于建模的目的。但是,我从您的开头段落中得出的印象是,您认为我们不应该检查适合数据的模型。我很确定这不是您的想法。此外,二元逻辑模型肯定有分布假设!(最明显的是,响应中只有两个值)
概率

3
除了假设Y仅有2个特定的可能值外,二进制逻辑模型没有dist。假设。我个人并不经常将诊断图与逻辑回归结合使用,而是选择指定足够灵活的模型以通过样本量的任何方式拟合数据,从而使我们能够进行研究。在OLS中,我使用的主要诊断图是残差正态性的qq图。
Frank Harrell

从广义线性模型的角度来看,逻辑模型来自二项式分布(伯努利分布)。但是即使那样,也很难解释残差。
New_to_this

当随机变量只能采用两个值(即伯努利分布)时谈论分布是没有帮助的,因为除非观察结果不是独立的,否则分布假设不可能出错。
弗兰克·哈雷尔

1
@FrankHarrell我意识到您知道您在这里说的是什么,但我认为从您的帖子/评论中,整个社区都不会明白线性预测变量(甚至是在GAM框架)可能会导致逻辑回归问题。正如您所说,许多人可能不理解这会导致数据的非独立性。当学生第一次遇到线性回归时,他们学会检查残差,而不会区分线性预测变量的错误指定和误差分布的错误指定。
雅各布·索科拉尔

5

该线程已经很老了,但是我想添加一下它会很有用,因为最近您可以使用DHARMa R软件包将任何GL(M)M的残差转换为标准化空间。完成此操作后,您可以以正常方式直观地评估/测试残差问题,例如与分布的偏差,残差对预测变量的依赖性,异方差或自相关。见包暗角的工作,通过实例,CV还有其他问题,在这里这里

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.