解释glm模型的残留诊断图?


33

我正在寻找有关如何解释glm模型的残差图的指南。尤其是泊松,负二项式,二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加)

我知道答案取决于模型。任何参考(或​​要考虑的一般要点)将有所帮助/赞赏。

Answers:


16

我认为这是进行回归分析时最具挑战性的部分之一。我也对大多数解释感到困惑(特别是二项式诊断是疯狂的!)。

我只是偶然发现了这篇文章 http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ ,他还链接了 http://statmaster.sdu.dk/courses/st111/module04/index.html #SECTION00020000000000000000

对我最有帮助的是绘制残差与模型中包含和不包含的每个预测参数的关系。这也意味着那些由于多重共线性的原因而事先放弃的人。对于这种箱线图,条件散点图和普通散点图都很好。这有助于发现可能的错误

在“带有R的森林分析”(UseR系列)中,有一些很好的解释,说明了如何解释混合效果模型(以及glms)的残差。好看!http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

某天前,我想到了一个网站,该网站可以收集残余模式,用户可以将其投票为“正常”和“不正常”。但我从来没有找到那个网站;)


8

我建议在下面描述的方法:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

有几种不同的想法,但是它们主要归结为模拟数据,在此您知道什么是真正的关系,并且该关系是基于对真实数据的分析。然后,您可以将实际数据的诊断结果与模拟数据集的诊断结果进行比较。vis.testR的TeachingDemos软件包中的函数实现了本文中建议的1的变体。阅读全文(不只是我的简短总结),以更好地理解。


我认为这是查看散点图或其他图中偏离随机模式的好建议,但这并不是查看残差时的唯一目标。通常,我们对与随机性的特定偏差感兴趣(例如,异方差,模型中非线性指定错误,变量被遗漏,离群值或高杠杆值等)。与随机生成的数据进行比较实际上并不能帮助您确定为什么残差既不是随机的又不是补救措施。
Andy W

@AndyW,我认为我们对原始问题的解释有所不同。我的回答让研究人员着手,让他们知道是否还需要寻找其他东西,或者剩余图是否合理。如果看起来不合理,该怎么办才是下一步,而且超出了我的答案(尽管可以使用一组新的模拟来比较一些其他假设)。
格雷格·斯诺

5

这个问题已经很老了,但是我想补充一下这一点很有用,因为最近您可以使用DHARMa R软件包将任何GL(M)M的残差转换为标准化空间。完成此操作后,您可以以正常方式直观地评估/测试残差问题,例如与分布的偏差,残差对预测变量的依赖性,异方差或自相关。见包暗角的工作,通过实例,CV还有其他问题,在这里这里

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.