在广义线性模型中检查残差的正态性


12

本文使用广义线性模型(二项式和负二项式误差分布)来分析数据。但是,在方法的统计分析部分中,有以下语句:

...然后通过使用Logistic回归模型对状态数据进行建模,并使用广义线性模型(GLM)对觅食时间数据进行建模。使用具有对数链接函数的负二项式分布来对觅食时间数据进行建模(Welsh等人,1996),并通过检验残差来验证模型的适当性(McCullagh&Nelder 1989)。Shapiro–Wilk或Kolmogorov–Smirnov检验用于根据样本量检验正态性;在分析之前,对数据进行对数转换,以符合正态性。

如果他们假设二项式和负二项式误差分布,那么他们肯定不应该检查残差的正态性吗?


2
请注意,误差不是二项分布的-根据对其他问题之一的回答,每个响应都具有由相应的预测变量值给出的概率参数的二项分布。
Scortchi-恢复莫妮卡

3
二项式或负二项式回归没有什么比正常需要的多。如果是他们的回应,那很可能适得其反。它将破坏GLM。
Glen_b-恢复莫妮卡2014年

1
从您的报价中并不清楚他们实际上正在测试正态性(确定是残差吗?)还是正在转换数据的分析(您确定是GLM?)。
Scortchi-恢复莫妮卡

我扩大了报价。有人可以确认论文的作者是对还是错?
luciano 2014年

恐怕还不是很清楚-如果本文或参考文献中未作其他解释,请与作者联系以详细了解他们如何进行分析。
Scortchi-恢复莫妮卡

Answers:


16

注意,除高斯模型外,偏差(或Pearson)残差不期望具有正态分布。对于逻辑回归情况,如@Stat所述,第个观测值偏差残差由下式给出:iyi

riD=2|log(1π^i)|

如果&yi=0

riD=2|log(π^i)|

如果,其中是拟合的伯努利概率。由于每个值只能采用两个值之一,因此很明显,即使对于正确指定的模型,它们的分布也不是正态的:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ图n = 1

但是,如果有第个预测变量模式的重复观测值,则定义了偏差残差以便收集它们nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(其中现在是从0到的成功计数),然后随着变大,残差的分布近似于正态分布:Ñ Ñ yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ图n = 30

泊松或负二项式GLM的情况相似:对于较低的预测计数,残差的分布是离散且偏斜的,但是在正确指定的模型下,较大的计数趋于正态。

对残差正常性进行正式测试是很平常的,至少不是在我的脖子上。如果在模型假设精确正态性的情况下,正常性测试本质上是无用的,那么很重要的一点是,如果没有,则没有用。然而,对于不饱和模型,图形残差诊断对于评估拟合的存在和性质非常有用,根据每种预测变量模式的重复次数,使用少量或少量盐进行正态分析。


1

他们所做的是正确的!我将为您提供仔细检查的参考。请参阅第5版线性回归分析简介中的 13.4.4节道格拉斯·蒙哥马利(Douglas C. Montgomery),伊丽莎白·佩克(Elizabeth A. Peck)和杰弗里·维宁(G. 特别是,请看第460页的示例,其中它们适合二项式glm,并仔细检查“残差”的正态性假设。如第458页所述,这是因为“偏差残差的行为很像标准残差理论线性回归模型中的普通残差”。因此,如果按法线概率图比例尺和拟合值来绘制它们,就很有意义。再次参见上述参考文献的456页。在第460和461页上提供的示例中,不仅针对二项式情况,而且针对具有(link = log)的Poisson glm和Gamma值,他们都检查了偏差残差的正态性。
对于二项式情况,偏差残差定义为:yi=0r D i =

riD=2|ln(1πi^)|
如果且如果。现在用R编写一些代码,向您展示如何获得它:yi=0ÿ=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

也可以在此处查看Poisson案例。


2
您的示例是一个奇怪的选择。您是否对这些偏差残差进行了PP或QQ图绘制?如果是这样,您得出了什么结论?
Scortchi-恢复莫妮卡

5
在这种情况下,要指出的是,检查残差的正态性没有意义-显然它们不是正态分布的,也不应该是正态分布的。只是随着每个预测变量模式的观察次数增加,残差的分布(每个预测变量模式计算一个残差)趋向于正态。类似地,对于Poisson或负二项式模型-要使法线逼近良好,计数必须大一点。
Scortchi-恢复莫妮卡

2
问题是广义线性模型的残差是否应该正态分布。您的答案似乎是不合格的“是”(尽管您的消息来源无疑会提供必要的资格,但并非每个读者都会对其进行检查)。然后,您给出一个示例,其中即使完全正确地指定了模型,也没有理由完全期望残差呈正态分布:粗心的读者会认为残差应该是&,因为显然不是,这是因此,通过检查残差来检测模型错误规格的示例(尽管您...
Scortchi-恢复莫妮卡

2
...还没说是)。因此,我认为答案需要更多说明才能有用。
Scortchi-恢复莫妮卡

2
IMO @Scortchi的评论在这里是合理的。看看我在Google图书预览中看到的蒙哥马利图书时它们确实绘制了QQ图,但没有像原始海报所述那样执行实际的正态性测试。确保制作QQ图作为诊断测试是合理的,但是在几乎所有实际情况下,甚至残差都会残留下来。将不正常。
Andy W
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.