为什么GLM中的准泊松不被视为负二项式的特例?


21

我正在尝试将广义线性模型拟合到可能过度分散的某些计数数据集。此处适用的两个规范分布是泊松和负二项式(Negbin),其EV和方差μ

VarP=μ

VarNB=μ+μ2θ

可以分别使用glm(..,family=poisson)和将其安装在R中glm.nb(...)。还有一个quasipoisson家庭,以我的理解,这是一个经过调整的泊松,具有相同的EV和方差

VarQP=ϕμ

即落在Poisson和Negbin之间。准泊松族的主要问题是没有相应的可能性,因此没有许多非常有用的统计检验和拟合度量(AIC,LR等)。

如果比较QP和Negbin方差,可能会注意到可以通过来使它们相等。继续这种逻辑,您可以尝试将准泊松分布表示为Negbin的特例:ϕ=1+μθ

QP(μ,ϕ)=NB(μ,θ=μϕ1)

即,一个\ theta的Negbin与\ muθ线性相关。我试图通过根据上述公式生成一个随机的数字序列并将其拟合为来验证这种想法:μglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

这两个拟合均重现了参数,并且拟泊松给出了\ phi的“合理”估计ϕ。现在,我们还可以为拟泊松定义AIC值:

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(我不得不从中手动复制拟合的值,因为我在对象中找不到它)ϕsummary(glmQP)glmQP

由于,这将表明拟泊松比是更好的拟合;这并不奇怪。因此,至少会做应做的事情,因此对于准浮点的AIC(并可能延伸)可能是一个合理的定义。我剩下的大问题是AICQP<AICNBAICQP

  1. 这个想法有意义吗?我的验证是否基于循环推理?
  2. 对于任何人“发明”似乎已经建立的主题中似乎缺少的东西的主要问题:如果这个想法有意义,为什么还没有实现glm呢?

编辑:添加图

glm适合和+1 sigma波段


1
(+1)欢迎使用交叉验证!并感谢您提出了一个很好的问题(尽管代码中的一些注释对于不使用R的人可能是不错的选择)。我认为您可能已经重新发明了NB1模型(尽管我尚未详细介绍它)。还要注意,没有拟泊松分布 -这就是为什么没有似然性或AIC的原因-它只是指拟合均值和方差的一种方式。
Scortchi-恢复莫妮卡

2
谢谢!在此期间,我已经添加了一些评论,希望这些可以解决。据我所知,准泊松分布不存在本身 -我真的想弄清楚是为什么QP是所有偶数的事情,考虑到NB1分布存在,并且没有任何的QP的准问题(请参阅Achims答案以获得明显的分辨率)。
user28400

1
@Scortchi ---实际上,存在这种分布...如果,和,然后是指数族均值和方差。如果。它不一定适用于计数数据(近似值除外),因为它是在上定义的。X泊斯λÿ=ķXÿμ=ķλķμķ1个0ķ2ķ
Glen_b-恢复莫妮卡2015年

1
@Glen_b:人们真的称其为准泊松吗?无论如何,这都是一个很好的例证-当您使用“拟泊松”模型时,您并没有真正假设该分布或NB1或其他任何分布,只是均值和方差之间的关系使您可以估计系数及其标准误差样本越大,效果越好。
Scortchi-恢复莫妮卡

1
@Scortchi这是唯一满足拟泊松假设的指数族分布,因此,有时我看到人们指出,这是假设所隐含的分布。当然,当人们使用它时,他们几乎*绝不会希望自己的数据来自特定的分布-只是为了粗略地描述其均值和方差之间的关系。(在某些保险申请中,在非常简单的假设下可能很有意义-总索赔成本,其中索赔数量为Poisson,而每项索赔成本实际上是恒定的。)
Glen_b-恢复莫妮卡2015年

Answers:


24

拟泊松不是完全最大似然(ML)模型,而是拟ML模型。您只需要使用Poisson模型中的估计函数(或得分函数)来估计系数,然后采用某个方差函数来获取合适的标准误差(或更确切地说是一个完整的协方差矩阵)来进行推理。因此,glm()不供应and logLik()AIC()here等。

sizeθ一世μ一世

如果没有回归量(只是一个截距)的参数化NB1和由所使用的参数化NB2 MASSglm.nb()重合。对于回归变量,它们有所不同。在统计文献中,更经常使用NB2参数化,但是某些软件包也提供NB1版本。例如,在R中,您可以使用gamlss包来做gamlss(y ~ x, family = NBII)。请注意,对于NB2参数化和NB1 gamlss使用有些混淆。(但是术语和术语并没有在所有社区中统一。)NBINBII

然后,您当然可以问,如果有可用的NB1,为什么要使用准泊松?仍然存在细微的差异:前者使用准ML,并从偏差(平方误差)或皮尔逊(Pearson)平方的残差中获得估计值。后者使用完整的ML。在实践中,差异通常并不大,但是使用这两种模型的动机略有不同。


1
谢谢!很有帮助的答案,我现在正在尝试,gamlss看起来正是我所需要的。您能否详细说明使用准可能性与完全ML的动机?
user28400 2015年

2
您假设更少:您仅假设(1)期望与回归之间的对数线性关系(2)方差与期望之间的线性关系。其余可能性完全未指定。作为(2)的替代方法,从业人员有时会使用所谓的“稳健”三明治标准误差,这将允许使用更一般的异方差模式。当然,也可以将NB1用于三明治标准错误...我们中还有更多评论vignette("countreg", package = "pscl")
Achim Zeileis 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.