为什么负二项式回归的Pearson残差比Poisson回归的残差小?


9

我有这些数据:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

我进行了泊松回归

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

负二项式回归:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

然后我为泊松回归计算色散统计量:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

负二项式回归:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

在不使用方程式的情况下,谁能解释为什么负二项式回归的色散统计量远小于泊松回归的色散统计量?

Answers:


9

这相当简单,但是“不使用方程式”是一个很大的障碍。我可以用语言解释它,但是这些词必定会反映方程式。我希望这对您是可以接受的/仍然有价值。(相关的方程式并不难。)

有几种残差类型。 原始残差只是观察到的响应值(在您的情况下为counts)与模型的预测响应值之差。 皮尔逊残差除以标准偏差(对于所使用的广义线性模型的特定版本,方差函数的平方根)。

泊松分布相关的标准偏差小于负二项式的标准偏差。因此,当您用较大的分母除以时,商就较小。

此外,负二项式更适合您的情况,因为您counts将以统一的形式分布在总体中。也就是说,它们的方差将不等于其均值。


4
尽管OP要求提供非数学解释,但仍然很高兴看到此答案的数学(或某些同样严格而清晰的)理由。在阅读问题后,我的直觉是:“由于泊松是NB的一种(限制性)特例,并且NB具有更多的参数,因此在拟合中具有更大的灵活性,因此,当更换时,任何合理的残差度量都不应增加NB GLM的Poisson GLM。” 我想知道这种直觉是否真的正确。

如果 X泊松λË[X]=V[X]=λ。如果X尼宾[RpË[X]=p[R/1个-pV[X]=p[R/1个-p2。因此,泊松方差等于平均值​​,NegBin方差大于平均值(p<1个1个-p2<1个-p)。这就是为什么“与泊松分布相关的标准偏差小于负二项式的标准偏差”的原因。
塞尔吉奥

3
@Sergio问题的症结在于,在Poisson模型中,我们正在使用估计 λ^ 而不是 λ 本身和NB模型中,我们正在类似地处理两个估计 [R^p^。因此,您的比较不直接适用。如果没有实际写下两个模型中MLE的公式,那两组估计之间的关系到底是什么也不是很明显。此外,皮尔逊残差是一个比率,有关方差的论点仅涉及分母,而这仅仅是故事的一半。
ub

MLE估计值是一致的。问题在于,如gung所说,“计数将以统一的形式分布在总体中。也就是说,其方差将不等于其均值”,那么您将永远无法获得比估计的Poisson方差更大的估计值。即使您的估计是无偏且一致的,泊松的意思是。这是一个规格错误的问题。
塞尔吉奥2014年

5

对于泊松模型,如果对 一世观察 ÿ一世μ一世 它的方差是 μ一世,因此Pearson残差

ÿ一世-μ^一世μ^一世

哪里 μ^是平均值的估计值。在这里解释用于MASS的负二项式模型的参数化。如果期望一世观察 ÿ一世μ一世 它的方差是 μ一世+μ2θ,因此Pearson残差

ÿ一世-μ一世μ一世+μ2θ

哪里 μ是平均值的估计值。值越小θ(即,额外的Poisson方差),与Poisson等效项相比,残差越小。[但是正如@whuber指出的那样,均值的估算值并不相同,μ^μ,因为估算程序会根据观察值的假定方差对观察值进行加权。如果您要重复测量一世预测器模式,它们会更接近,并且通常来说,添加参数应该可以更好地适用于所有观测值,尽管我不知道如何严格地证明这一点。同样,如果泊松模型成立,您估计的人口数量就会更大,因此不足为奇。]


1
感谢您介绍一些方程式。但是是μ一世在两个模型中将具有相同的值?(我不这么认为。)如果没有,那么如何比较两个皮尔逊残差?
ub

@whuber在这种情况下,事实证明两个模型的拟合值几乎相同。毕竟,“真实”模型实际上只有一个截距,并且基本上是对均值建模,因为模拟中x和Y之间没有关系。
jsk

1
@jsk是的,我查看了数据并运行了代码。(顺便说一句,可以更改两个模型的数据并获得基本相同的离差统计信息。)las,您的观点是正确的,仍然没有解决特定问题,也没有解决关于(隐式)一般性问题比较Poisson残差和NB残差,因为估计的方差也可能几乎相同。关于当前答案的一个可能令人困惑的方面是使用符号“μ一世“指什么(原则上)可能是不同的估计在同一数据的两种型号。
whuber

1
@whuber确实,您对使用 μ一世。有趣的是,我似乎无法找到一种模拟数据的方法,该方法将导致Poisson的分散统计低于NB。也许不可能吗?我同意这在直觉上是有道理的。这不容易证明,因为当您具有身份以外的链接功能时,就不存在针对MLE的封闭式解决方案。但是是的,很容易使两个离散统计非常相似。
jsk

1
@jsk-一个怀疑NB模型总是比Poisson更合适的理论论据,是您可以将NB写为泊松伽玛复合分布。所以你有了ÿ一世|λv一世[RPØ一世ssØñλv一世 然后 v一世|λ[RG一个一个[R[R 给出负二项式模型 ÿ一世|λ[Rñ[Rλ[R+λ。现在,那些v一世 参数可以使模型使预测均值更接近于观测值(当 ÿ一世>λ 你会看到 v一世>1个,减少残差。)
概率
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.