带有计数数据和过度分散的回归中的泊松还是拟泊松?


16

我有计数数据(根据可能的许多因素,对客户数量进行需求/报价分析)。我尝试使用正常错误进行线性回归,但是我的QQ图并不是很好。我尝试了答案的日志转换:再次是不良的QQ图。

所以现在,我正在尝试使用Poisson错误进行回归。使用具有所有重要变量的模型,我得到:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

残余偏差大于残余自由度:我过于分散。

我怎么知道我是否需要使用准泊松?在这种情况下,拟泊松的目标是什么?我在克劳利(Crawley)的《 The R Book》中阅读了此建议,但我的观点并没有太大的改善。

Answers:


18

在尝试确定要估计哪种glm方程时,应考虑给定右侧(rhs)变量的目标变量的期望值与给定rhs变量的目标变量的方差之间的合理关系。正常模型中的残差与拟合值的关系图可以帮助解决这一问题。使用Poisson回归时,假定的关系是方差等于期望值。相当严格,我想你会同意的。对于“标准”线性回归,假设是无论期望值如何,方差都是恒定的。对于准泊松回归,方差被认为是均值的线性函数。对于负二项式回归,是一个二次函数。

但是,您并不局限于这些关系。“家庭”(“准”除外)的规格确定了均值-方差关系。我没有The R Book,但我想它有一个表,该表显示族函数和相应的均值-方差关系。对于“准”族,您可以指定几种均值-方差关系中的任何一个,甚至可以编写自己的关系。请参阅R文档。通过为“准”模型中的均值方差函数指定非默认值,可以找到更好的拟合度。

您还应注意目标变量的范围。在您的情况下,它是非负计数数据。如果您有大量的低值-0、1、2-连续分布可能不太适合,但如果您不满意,则使用离散分布就没有太大价值。很少有人会认为泊松分布和正态分布是竞争对手。


你是对的。在这里,我正在计数数据,但是值很大。我应该使用连续分布。
安东尼

8

您是对的,这些数据可能过于分散。Quasipoisson是一种补救方法:它也估计比例参数(对于Poisson模型是固定的,因为方差也是均值),并且将提供更好的拟合度。但是,这不再是您要做的最大可能性,并且无法使用某些模型测试和索引。可以在Venables和Ripley的《带有S的现代应用统计》(第7.5节)中找到很好的讨论。

一种替代方法是使用负二项式模型,例如glm.nb()package中的函数MASS


1
但是在这种情况下,我是否被“强迫”使用准泊松?我问是因为我的非拟泊松模型更好(只是基本泊松),因为更多的变量有意义。
安东尼

2
那不是很有意义吗?如果我使用的回归模型假设sigma为.00001,而不是使用数据的估算值(假设为2.3),那么情况当然会更加重要。
戴森2012年

1
安东宁:我想说的是,因为更多的变量是有意义的,它并不能使事情变得“更好”。正如Dason指出的那样,如果您低估了误差方差,那么这些可能很容易成为误报。在这种情况下,我肯定会使用准方法或负二项式,但是除非我查看您的论文,否则您将不会被迫做任何事情;)
Momo 2012年

非常感谢你的回答!您知道比较准泊松模型和负二项式模型的任何方法吗?在大多数书籍中,他们介绍了模型,但没有说明如何在它们之间进行选择。
安东尼

1
从输出看来,您正在将53-17 = 16参数拟合为53 + 1 = 54个数据点;这是正确的吗?如果是这样,则任何依赖于渐近逼近的方法,包括glm()和的使用,glm.nb()都容易给出校准错误的推论;可以期望精度被夸大了。进一步了解为什么要执行此回归将很有帮助;可能会改用在小样本情况下效果更好的方法。
来宾
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.