零膨胀泊松回归


14

假设是独立的并且Y = Y 1Y n 'Y=(Y1,,Yn)

ÿ = 0 的概率为p + 1 - p ë - λ   ÿ = ķ 以概率1 - p ë - λ λ达ķ / ķ  

Yi=0Yi=kwith probability pi+(1pi)eλiwith probability (1pi)eλiλki/k!

还假定参数和\ textbf {p} =(p_1,\ dots,p_n)满足λ = λ 1... λ Ñ ' p = p 1... p Ñλ=(λ1,,λn)p=(p1,,pn)

日志λ= β 分对数p= 日志p /1 - p= g ^ λ

log(λ)logit(p)=Bβ=log(p/(1p))=Gλ.

如果相同的协变量影响和从而使,那么为什么零膨胀的Poisson回归需要的参数是Poisson回归的两倍?λ p = g ^λpB=G


2
您仍然必须估算和。和是设计矩阵(数据),因此相等的值不会减小参数空间的维数。β λ ģβλBG
2012年

@Macro:如果是一列,为什么我们要比泊松回归多估计1个参数?GG
达米安

以及你需要估计(该模型的逻辑部分“拦截”)和(以下简称“拦截”,在该模型的泊松部分),所以有2个参数,而不是1p λ piλi

1
@Robby,为减少参数数量,您必须进行一些限制。例如,,尽管没有理由认为这很有意义-尤其是因为链接功能不同。λ = βλ=β
2012年

3
@MichaelChernick-之所以称为零膨胀的Poisson,是因为您基本上是在“夸大”从Poisson距离看到零的概率,同时保持与Poisson相同的相对概率看到非零值。
jbowman

Answers:


2

在零膨胀的Poisson情况下,如果,则和都具有相同的长度,即或。因此,参数的数量是设计矩阵的列数的两倍,即,包括截距(以及所需的任何伪编码)的解释变量的数量是两倍。B=GB=GββλλBBGG

在直接的Poisson回归中,无需担心向量,无需估算。因此,参数的数量仅为的长度,即零膨胀情况下参数数量的一半。ppλλββ

现在,没有特殊的原因为什么必须等于,但是通常这是有道理的。但是,可以想象一个数据生成过程,其中一个事件创造了完全发生任何事件的机会,而一个完全不同的过程驱动了有多少事件非零事件。举一个人为的例子,我根据历史考试分数挑选教室玩一些不相关的游戏,然后观察他们得分的目标数量。在这种情况下, 可能与完全不同(如果驾驶“历史记录”考试成绩的分数与游戏中驾驶表现的分数不同),并且BBGGGλGλBβBβBBGGββ和可以具有不同的长度。列可能多于或更少。因此,在这种情况下,零膨胀的泊松模型比简单的泊松模型具有更多的参数。λλGGBB

通常,我认为大部分时间。G=BG=B

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.