注意,除高斯模型外,偏差(或Pearson)残差不期望具有正态分布。对于逻辑回归情况,如@Stat所述,第个观测值偏差残差由下式给出:iyi
rDi=−2|log(1−π^i)|−−−−−−−−−−−√
如果&yi=0
rDi=2|log(π^i)|−−−−−−−−√
如果,其中是拟合的伯努利概率。由于每个值只能采用两个值之一,因此很明显,即使对于正确指定的模型,它们的分布也不是正态的:yi=1πi^
#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))
#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)
但是,如果有第个预测变量模式的重复观测值,则定义了偏差残差以便收集它们nii
rDi=sgn(yi−niπ^i)2[yilogyinπ^i+(ni−yi)logni−yini(1−π^i)]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
(其中现在是从0到的成功计数),然后随着变大,残差的分布近似于正态分布:Ñ 我Ñ 我yinini
#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)
泊松或负二项式GLM的情况相似:对于较低的预测计数,残差的分布是离散且偏斜的,但是在正确指定的模型下,较大的计数趋于正态。
对残差正常性进行正式测试是很平常的,至少不是在我的脖子上。如果在模型假设精确正态性的情况下,正常性测试本质上是无用的,那么很重要的一点是,如果没有,则没有用。然而,对于不饱和模型,图形残差诊断对于评估拟合的存在和性质非常有用,根据每种预测变量模式的重复次数,使用少量或少量盐进行正态分析。