泊松回归的残差与拟合值的解释图


25

我试图用R中的GLM(泊松回归)拟合数据。当我绘制残差与拟合值时,该图创建了多个(几乎是线性的,带有轻微的凹曲线)“线”。这是什么意思?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

在此处输入图片说明


我不知道您是否可以上传剧情(有时新手不能),但如果不能,您是否可以至少在问题中添加一些数据和R代码,以便人们对其进行评估?
gung-恢复莫妮卡

Jocelyn,我用您发表评论的信息更新了您的帖子。homework自您谈论作业以来,我也将其标记为。
chl 2012年

尝试plot(jitter(mod1))来查看图形是否更具可读性。您为什么不为我们定义残差,并在解释图时给我们最好的猜测。
Michael Bishop

1
从这个问题出发,我将假设您了解泊松分布和泊松规则,以及残差与拟合值的关系图告诉您什么(如果这是错误的,请更新),因此您只是想知道这些点的奇异外观在情节中。B / c,这是家庭作业,我们并没有完全按照我们的一般政策回答,而是提供了提示。我注意到您有很多协变量,我想知道您是否有1个连续且有很多二元协变量。
gung-恢复莫妮卡

1
龚的评论有两个后续行动。首先,尝试table(dvisits$doctorco)。该表中的10条曲线对应什么?另外,对于超过5000个观察值,不必担心拟合13个回归系数。
来宾

Answers:


29

当因变量是离散的时,这是您期望的这种图形的外观。

图上每个点的曲线轨迹都对应于因变量的固定值。每种情况下ÿ ÿ = ķ ý ķ - ý ķ - ý ý - 1个日志Ýķ ÿkyy=k都有一个预测;根据定义,其残差等于。的情节对显然是与斜率的线。在Poisson回归中,x轴以对数刻度显示:。现在,曲线以指数形式向下弯曲。作为y^ky^ky^y^1log(y^)k变化,这些曲线上升了整数。对它们求幂得到一组准平行曲线。(为证明这一点,该图将在下面显式构造,并通过的值分别为点着色。)y

我们可以通过类似但任意的模型(使用小的随机系数)非常接近地重现所讨论的图

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

残差vs.拟合


6
(+1)颜色在显示正在发生的事情上大有帮助。
红衣主教

那么以上情节有关系吗?文本(例如,《生物医学研究者的统计模型:复杂数据分析的简单介绍》,杜邦,2002年,第316页)指出,拟合图与残差图应以零残差线为中心,并且两个扇形(如果是原始的话)残差)与否(例如,是否存在偏差)。在结果变量的计数范围有限的情况下,您将获得这些带,并且如上图所示,它们并不以y = 0处的线为中心。我们如何知道OP的残差图(或示例图)在这个答案中做出来)表明模型很好地拟合了数据?
梅格

1
@Meg该建议并不直接适用于GLM的残差。请注意,用于说明此答案的模型是正确的,因为它是用于生成数据的模型。
豪伯

1/2:谢谢@whuber。我知道这个答案的模型是正确的,因为数据是从给定的分布中模拟出来的,但实际上它是未知的(如OP的文章)。另外,我写的关于残差的内容确实适用于POI回归(并非所有GLM,不是,但是这一个)-我给出的参考是专门讨论POI回归的。我只看到文本显示了以y = 0为中心的标准化POI残差(例如,Pearson或偏差),所以我不确定应该寻找什么,因为对于该模型(显然是正确的),该图看起来没有那样的事。
梅格

2/2:您是否有机会更全面地讨论POI残差?
梅格

8

有时,残差图中的类似条纹表示具有(几乎)相同观察值的点,从而获得不同的预测。查看您的目标值:它们有多少个唯一值?如果我的建议是正确的,则您的训练数据集中应该有9个唯一值。


1
+1。(实际上在右上角附近有一个十分之一,表示为一个点。)当然,值是。0,1,,9
ub

-3

此模式的特征是家庭和/或链接的不正确匹配。如果数据过于分散,那么也许应该考虑负二项式(计数)或伽马(连续)分布。另外,您应该针对转换后的线性预测变量而不是使用广义线性模型的预测变量绘制残差。要转换Poisson预测变量,您需要取线性预测变量平方根的2倍,并针对该残差绘制残差。此外,残差不应仅是皮尔逊残差,尝试偏差残差和学生化残差。


3
当Posson族的规范链接为log时,为什么要平方根的2倍?它不是线性预测变量的exp()吗?但是我看不到针对线性预测变量本身绘制残差会带来什么问题,我认为这是在这里进行的工作-也许您可以对此进行扩展。
彼得·埃利斯

您介意解释“模式”的哪个方面正在引起您对可能的模型错误规范Ryan的注意吗?这似乎是一件微妙的事情,但可能是重要的见解。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.