零膨胀模型和跨栏模型有什么区别?


81

我想知道所谓的零膨胀分布(模型)和所谓的零障碍分布(模型)之间是否有明显的区别?这些术语在文献中经常出现,我怀疑它们是不相同的,但是请您简单解释一下我的区别吗?

Answers:


80

感谢您提出有趣的问题!

区别:标准计数模型的一个局限性在于,假定零和非零(正数)来自同一数据生成过程。 使用关卡模型,这两个过程并不必须相同。基本思想是伯努利概率决定计数变量是零实现还是正实现的二元结果。如果实现为正,则越过障碍,并且正的条件分布由零位计数数据模型控制。零充气模型,则将响应变量建模为伯努利分布(或称其为零的点质量)和泊松分布(或非负整数支持的任何其他计数分布)的混合。有关更多详细信息和公式,请参见例如Gurmu和Trivedi(2011)和Dalrymple,Hudson和Ford(2003)。

示例:障碍模型可以由个人面对的顺序决策过程来激发。您首先要确定是否需要购买某些东西,然后再确定该东西的数量(必须为正数)。在您决定购买某物品后,如果您被允许(或可能)不买任何东西,便是零膨胀模型适用的情况的一个例子。零可能来自两个来源:a)没有购买决定;b)想购买,但最终什么也没买(例如缺货)。

Beta:障碍模型是Frees(2011)第16章中描述的两部分模型的特例。在那里,我们将看到对于分为两部分的模型,所使用的医疗保健量可能是连续的,而且可能是计数变量。因此,在文献中有些令人困惑的术语称为“零膨胀β分布”实际上属于两部分分布和模型的类别(在精算科学中很常见),这与上述对障碍模型的定义是一致的。这本出色的书讨论了第12.4.1节中的零膨胀模型和第12.4.2节中的障碍模型,并提供了精算应用中的公式和示例。

历史:没有协变量的零膨胀泊松(ZIP)模型历史悠久(请参见Johnson和Kotz,1969年)。合并协变量的ZIP回归模型的一般形式归因于Lambert(1992)。跨栏模型最初由加拿大统计学家Cragg(1971)提出,后来由Mullahy(1986)进一步发展。您可能还考虑了Croston(1972),其中正几何计数与伯努利过程一起用于描述以零为主的整数值过程。

R:最后,如果使用R,Simon Jackman 会为“政治科学计算实验室开发的R的类和方法”提供pscl软件包,其中包含Achim Zeileis的hurdle()和zeroinfl()函数。

已参考以下参考文献以产生上述内容:

  • Gurmu,S.&Trivedi,PK娱乐旅行计数模型中的多余零点商业与经济统计,1996,14,469-477
  • Johnson,N.,Kotz,S.,《统计分布:离散分布》。1969年,霍顿·米津,波士顿
  • Lambert,D.,零膨胀泊松回归及其在制造缺陷中的应用。Technometrics,1992,34(1),1-14。
  • Cragg,JG有限因变量的某些统计模型在耐用商品需求计量中的应用计量经济学,1971,39,829-844
  • Mullahy,J.一些修改后的计数数据模型的规范和测试,《计量经济学》,1986,33,341-365
  • Frees,精算和金融应用的EW回归建模剑桥大学出版社,2011年
  • 达林普,ML; Hudson,IL和Ford,RPK有限混合,零膨胀Poisson和Hurdle模型在SIDS计算统计和数据分析中的应用,2003,41,491-504
  • Croston,《 JD间歇性需求的预测和库存控制》,《运营研究季刊》,1972年,第23页,第289-303页

2
那么,障碍物模型真的是一个“模型”吗?还是运行两个顺序的且分别估计的模型?想象一下通过查看竞争力得分(1-胜利幅度)来模拟选举种族的竞争力。这是有界的[0,1),因为没有联系(例如1)。因此,我们首先进行逻辑回归分析0与(0,1)。然后我们进行beta回归分析(0,1)情况。看来这是两个完全不同的模型,它们具有各自的系数和单独的估计?还是我错过了什么?
马克·怀特

例如,您在回答中提到零可能是由于(a)决定不购买汽车,或(b)想要购买,但它缺货。似乎障碍模型无法区分两者,因为它们是按顺序完成的?
马克·怀特

再看一个例子:响应为[1,7],就像传统的李克特量表一样,在7处有最大的上限效应。可以做一个障碍模型,将[1,7)与7进行逻辑回归,然后进行Tobit回归。对于观察到的响应<7的所有情况,同样,我们得到两组回归系数,并分别进行估计。似乎我们不是在共同对这些过程进行建模,而是在两个完全不同的模型中进行建模?那么,障碍实际上是一个模型,还是仅仅是连续进行两种不同类型的广义线性模型的过程?
马克·怀特

我在这里扩展在自己的岗位这个问题:stats.stackexchange.com/questions/320924/...
马克·怀特

47

跨栏模型假设只有一个过程可以产生零,而零膨胀模型则假设有两个不同的过程可以产生零。

跨栏模型假设有两种类型的主题:(1)从未经历过结果的对象,以及(2)总是经历过至少一次结果的对象。零膨胀模型将主题概念化为:(1)从未体验过结果的人和(2)能够体验到结果但并不总是的人。

简单来说:零膨胀模型和障碍模型都分为两个部分。

第一个是开关部分,它是一个二进制过程。系统以概率为“关”,以概率为“开” 。(在这里,被称为通货膨胀概率。)当系统处于“关闭”状态时,只能进行零计数。对于零膨胀模型和跨栏模型,此部分相同。1 - π ππ1ππ

第二部分是计数部分,它在系统“开机”时发生。这就是零充气模型和跨栏模型的区别。在零膨胀模型中,计数仍可以为零。在障碍模型中,它们必须为非零。对于这一部分,零膨胀模型使用“通常”的离散概率分布,而障碍模型使用零截断的离散概率分布函数。

障碍模型的示例:汽车制造商希望比较其汽车的两个质量控制程序。它将根据提出的保修索赔数量进行比较。对于每个程序,将跟踪一组随机选择的客户1年,并计算他们提交的保修索赔数量。然后比较两个程序中每个程序的通货膨胀率。“关闭”状态是“提出了零个权利要求”,而“开”状态是“提出了至少一个权利要求”。

零充气模型的示例:在上述同一研究中,研究人员发现,在不提出保修索赔的情况下,对汽车的某些修理是固定的。这样,零是没有质量控制问题以及没有保修要求的质量控制问题的混合体。“关闭”状态表示“提出了零个索赔”,而“开”状态表示“提出了至少一个索赔,或者修复了未提出索赔的修理”。

有关将两种类型的模型都应用于同一数据集的研究,请参见此处


感谢您的详细回答。您是否对带有加零的标准beta分布合适的术语有什么看法?使用您的零膨胀的定义,显然零的来源之一,因此它不能被称为零膨胀......看到这个讨论stats.stackexchange.com/questions/81343/...
潜藏

2
我喜欢@Hibernating所建议的“零添加beta发行版”
Darren James

10

在ZIP模型与概率〜0和〜泊松()与概率分布,因此,ZIP模型是含有2种组分混合模型和: yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

并在门槛模型〜0与概率和〜截断泊松()与概率分布,和: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

关于障碍模型,以下引自《数学和统计模型的发展》(Arnold,Balakrishnan,Sarabia和Mínguez,2008年):

跨栏模型的特征在于跨栏以下和上方的过程。显然,使用最广泛的障碍模型是将障碍设置为零的模型。形式上,零障碍模型表示为:对于 forP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

变量可以解释为跨越障碍的可能性,或更准确地说,是在保险的情况下,报告至少一项索赔的可能性。ϕ

至于零膨胀模型,维基百科说

零膨胀模型是基于零膨胀概率分布的统计模型,即,该分布允许频繁进行零值观察。

零膨胀泊松模型涉及一个随机事件,该随机事件包含单位时间内过量的零计数数据。例如,任何给定的受保人对保险公司的索赔数量几乎始终为零,否则重大损失将导致该保险公司破产。零膨胀泊松(ZIP)模型采用与两个零生成过程相对应的两个组件。第一个过程由生成结构零的二进制分布控制。第二个过程由产生计数的泊松分布控制,其中一些计数可能为零。这两个模型组件描述如下:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
如果结果变量具有任何非负整数值,则是第个人的预期泊松计数;是额外零的概率。yjλiiπ

从Arnold及其同事(2008年)中,我看到零障碍模型是更通用的障碍模型类别的特例,但从Wikipedia(Hall,2004年)的参考资料中,我也看到一些零障碍模型是零障碍模型。膨胀模型可以是上限。我不太了解公式的区别,但是它们似乎很相似(两者都使用非常相似的示例,即保险索赔)。我希望其他答案可以帮助解释任何重要的差异,并且该答案将有助于为这些差异打下基础。

维基百科的参考:

  1. Lambert,D。(1992)。零膨胀泊松回归,应用于制造缺陷。技术计量学,34(1),1-14。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.