解释GLM R中的残差和零偏差


47

如何在R中解释GLM中的零位和残差?就像,我们说较小的AIC更好。对偏离者也有任何相似和快速的解释吗?

零偏差:1077自由度上为1146.1残余偏差:1099自由度上为4589.4 AIC:11089

Answers:


74

令LL =对数似然

这是您从summary(glm.fit)输出中看到的内容的快速摘要,

df = df_Sat-df_Null上的零偏差= 2(LL(饱和模型)-LL(零模型))

残余偏差= 2(LL(饱和模型)-LL(提议模型))df = df_Sat-df_提议

饱和模型是,假定每个数据点的模型有其自身的参数(你有n个参数来估算该装置。)

空模型假定确切的“相反的”,因为是承担所有的数据点中的一个参数,这意味着你只能估计1个参数。

提出的模型假定您可以用p参数+截距项解释你的数据点,让你有P + 1点的参数。

如果您的Null偏差确实很小,则意味着Null模型可以很好地解释数据。同样,您的残差也是如此

真正的小意思是什么?如果您的模型“良好”,则您的偏差约为(^ f_sat-df_model)自由度的Chi ^ 2。

如果您想将Null模型与Proposed模型进行比较,则可以查看

(零偏差-残余偏差)提议的df约为Chi ^ 2 -df Null =(n-(p + 1))-(n-1)= p

您是直接从R获得的结果吗?它们似乎有些奇怪,因为通常您应该看到在Null上报告的自由度始终高于在Residual上报告的自由度。这又是因为零偏差df =饱和df-零df = n-1残余偏差df =饱和df-建议的df = n-(p + 1)


是的,@ TeresaStat非常有用,谢谢。这有多健壮?如果您正在谈论的是多项模型而不是y,则定义会发生变化GLM吗?
Hack-R

@Teresa:是的,这些结果来自R。为什么会这样?这里的模型有问题吗?
安贾利2014年

@ Hack-R:对这么晚的回复很抱歉,我是Stackexchange的新手。对于多项模型,不要在R中使用glm函数,并且输出是不同的。您将需要查看比例赔率模型或序数回归,即mlogit函数。对多项式glms进行一些阅读是值得的,因为它们有稍微不同的假设。如果我可以在休息时间使用它,请使用一些更多信息进行更新。
TeresaStat 2014年

@Anjali,我不太确定为什么您会在R中得到类似的结果。在不查看数据/结果的情况下很难知道。总的来说,我不明白为什么剩余的自由度会比零df高。您估计了多少个参数?
TeresaStat 2014年

1
@ user4050通常,建模的目标可以看作是使用最少数量的参数来解释有关您的响应的最多信息。要弄清楚要使用多少个参数,您需要查看增加一个参数的好处。如果额外的参数与较小的模型有很大的不同(产生较大的偏差),则您需要额外的参数。为了量化多少,您需要统计理论。理论告诉我们,偏差与自由度的平方成正比,等于两个模型之间参数的差。更清楚了吗?
TeresaStat 2015年

13

零偏差显示了模型在没有截距的情况下对响应的预测程度。

剩余偏差显示了当包含预测变量时模型对响应的预测程度。从您的示例中可以看出,当添加22个预测变量时,偏差增加了3443.3(注意:自由度=观察数–预测数)。偏差的增加表明严重缺乏体能。

我们还可以使用残差来检验零假设是否成立(即Logistic回归模型为数据提供了足够的拟合度)。这是可能的,因为偏差是在一定的自由度下由卡方值给出的。为了检验重要性,我们可以使用R中的以下公式找出关联的p值:

p-value = 1 - pchisq(deviance, degrees of freedom)

使用上述残差和DF的值,您将获得大约为零的p值,这表明非常缺乏证据支持原假设。

> 1 - pchisq(4589.4, 1099)
[1] 0

2
您如何根据预测变量的偏差和数量(不包括pchisq)知道好/坏拟合的截止点?只是残留偏差> NULL偏差还是存在一定范围/比率?
Hack-R

3
您的回答没有错,但是容易引起误解。实际上,它已经被误解了(参见此处)。有鉴于此,您能否澄清代码中隐含的差异?
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.