如何检查我的回归模型是否良好


10

使用“ glm”查找逻辑回归模型的准确性的一种方法是查找AUC图。如何为连续响应变量(family ='gaussian')找到的回归模型进行相同的检查?

哪些方法用于检查回归模型对数据的拟合程度?


您可能需要看一下r-squared标记和goodness-of-fit标记
Macro

2
具有线性链接的“高斯”族只是普通的最小二乘(OLS)回归。此站点上的一千个问题中可能讨论了检查这种拟合的方法(我不夸张)。
whuber

Answers:


15

我建议您先简要搜索一下“ 线性回归模型诊断 ”。但是,我建议您检查以下内容:

确保满足假设条件

  • 使用散点图或分量加残差图来检查独立预测变量和因变量之间的线性关系。

  • 用标准化残差与预测值组成一个图,并确保不存在残差非常高的极点,并且残差的分布沿预测值在很大程度上相似,并且在均值的上下均大致相等地分布,零。

  • 您还可以将y轴更改为残差。该图有助于识别不等方差。2

  • 重新检查研究设计以确保独立性的假设是合理的。

  • 检索方差膨胀因子(VIF)或公差统计量以检查可能的共线性。

检查潜在影响点

  • 检查诸如Cook's D,DFits或DF Beta之类的统计信息,以了解某个数据点是否正在极大地改变您的回归结果。你可以在这里找到更多。

检查和调整后的统计数据的变化R2R2

  • 作为回归平方和与平方和之比,可以告诉您因变量中有多少%的可变性由模型解释。R2
  • 调整后的可用于检查由我的其他预测变量带来的额外平方和是否真的值得它们采用的自由度。R2

检查必要的互动

  • 如果存在主要的独立预测变量,则在对其独立影响进行任何解释之前,请检查其是否与其他独立变量相互作用。互动如果不加以调整,可能会使您的估计产生偏差。

将模型应用于另一个数据集并检查其性能

  • 您还可以将回归公式应用于其他单独的数据,并查看其预测效果如何。像散点图之类的图表和与观测值的%差异之类的统计信息可以作为一个良好的起点。

2
(+1):非常完整的答案!如果您使用的是R,plot.lm则可以为您提供Penguin_Knight提到的大多数诊断图。
Zach

4

我喜欢对回归模型进行交叉验证,以了解它们对新数据的推广程度。我选择的度量标准是交叉验证数据的平均绝对误差,但是均方根误差更为常见且同样有用。

我认为R2不能很好地衡量您的模型对训练数据的拟合程度,因为根据训练数据计算出的几乎所有误差度量都容易出现过度拟合的情况。如果必须在训练集上计算R2,我建议使用调整后的R2


1

您可以使用检查模型对训练数据的拟合程度。这将告诉您模型解释了数据中方差的百分比。R2

与实际值相比,我建议对测试集使用RMSE(均方根误差)预测。这是报告连续变量的预测误差的标准方法。


1
@Macro但是这个问题最初要求的是具有高斯误差的OLS回归的性能指标。他来自逻辑回归。
Erik

@Erik,谢谢,我读错了。无论如何,关于第一部分,我认为单独使用不能用来“检查我的回归模型是否良好”,而要使用OP的话。您的模型可能会惨败,无法有效地对绝大多数数据进行预测,而仍然具有较高的。参见此处的示例-在示例(1)中,几乎没有预测能力,但是仍然很高。R 2 R 2R2R2R2
2013年

@Macro,我同意您的意见,但旨在提供一种简单的解释以将OP指向正确的方向
BGreene

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.