Answers:
感谢您提出有趣的问题!
区别:标准计数模型的一个局限性在于,假定零和非零(正数)来自同一数据生成过程。 使用关卡模型,这两个过程并不必须相同。基本思想是伯努利概率决定计数变量是零实现还是正实现的二元结果。如果实现为正,则越过障碍,并且正的条件分布由零位计数数据模型控制。零充气模型,则将响应变量建模为伯努利分布(或称其为零的点质量)和泊松分布(或非负整数支持的任何其他计数分布)的混合。有关更多详细信息和公式,请参见例如Gurmu和Trivedi(2011)和Dalrymple,Hudson和Ford(2003)。
示例:障碍模型可以由个人面对的顺序决策过程来激发。您首先要确定是否需要购买某些东西,然后再确定该东西的数量(必须为正数)。在您决定购买某物品后,如果您被允许(或可能)不买任何东西,便是零膨胀模型适用的情况的一个例子。零可能来自两个来源:a)没有购买决定;b)想购买,但最终什么也没买(例如缺货)。
Beta:障碍模型是Frees(2011)第16章中描述的两部分模型的特例。在那里,我们将看到对于分为两部分的模型,所使用的医疗保健量可能是连续的,而且可能是计数变量。因此,在文献中有些令人困惑的术语称为“零膨胀β分布”实际上属于两部分分布和模型的类别(在精算科学中很常见),这与上述对障碍模型的定义是一致的。这本出色的书讨论了第12.4.1节中的零膨胀模型和第12.4.2节中的障碍模型,并提供了精算应用中的公式和示例。
历史:没有协变量的零膨胀泊松(ZIP)模型历史悠久(请参见Johnson和Kotz,1969年)。合并协变量的ZIP回归模型的一般形式归因于Lambert(1992)。跨栏模型最初由加拿大统计学家Cragg(1971)提出,后来由Mullahy(1986)进一步发展。您可能还考虑了Croston(1972),其中正几何计数与伯努利过程一起用于描述以零为主的整数值过程。
R:最后,如果使用R,Simon Jackman 会为“政治科学计算实验室开发的R的类和方法”提供pscl软件包,其中包含Achim Zeileis的hurdle()和zeroinfl()函数。
已参考以下参考文献以产生上述内容:
跨栏模型假设只有一个过程可以产生零,而零膨胀模型则假设有两个不同的过程可以产生零。
跨栏模型假设有两种类型的主题:(1)从未经历过结果的对象,以及(2)总是经历过至少一次结果的对象。零膨胀模型将主题概念化为:(1)从未体验过结果的人和(2)能够体验到结果但并不总是的人。
简单来说:零膨胀模型和障碍模型都分为两个部分。
第一个是开关部分,它是一个二进制过程。系统以概率为“关”,以概率为“开” 。(在这里,被称为通货膨胀概率。)当系统处于“关闭”状态时,只能进行零计数。对于零膨胀模型和跨栏模型,此部分相同。1 - π π
第二部分是计数部分,它在系统“开机”时发生。这就是零充气模型和跨栏模型的区别。在零膨胀模型中,计数仍可以为零。在障碍模型中,它们必须为非零。对于这一部分,零膨胀模型使用“通常”的离散概率分布,而障碍模型使用零截断的离散概率分布函数。
障碍模型的示例:汽车制造商希望比较其汽车的两个质量控制程序。它将根据提出的保修索赔数量进行比较。对于每个程序,将跟踪一组随机选择的客户1年,并计算他们提交的保修索赔数量。然后比较两个程序中每个程序的通货膨胀率。“关闭”状态是“提出了零个权利要求”,而“开”状态是“提出了至少一个权利要求”。
零充气模型的示例:在上述同一研究中,研究人员发现,在不提出保修索赔的情况下,对汽车的某些修理是固定的。这样,零是没有质量控制问题以及没有保修要求的质量控制问题的混合体。“关闭”状态表示“提出了零个索赔”,而“开”状态表示“提出了至少一个索赔,或者修复了未提出索赔的修理”。
有关将两种类型的模型都应用于同一数据集的研究,请参见此处。
关于障碍模型,以下引自《数学和统计模型的发展》(Arnold,Balakrishnan,Sarabia和Mínguez,2008年):
跨栏模型的特征在于跨栏以下和上方的过程。显然,使用最广泛的障碍模型是将障碍设置为零的模型。形式上,零障碍模型表示为:对于 for
变量可以解释为跨越障碍的可能性,或更准确地说,是在保险的情况下,报告至少一项索赔的可能性。
至于零膨胀模型,维基百科说:
零膨胀模型是基于零膨胀概率分布的统计模型,即,该分布允许频繁进行零值观察。
零膨胀泊松模型涉及一个随机事件,该随机事件包含单位时间内过量的零计数数据。例如,任何给定的受保人对保险公司的索赔数量几乎始终为零,否则重大损失将导致该保险公司破产。零膨胀泊松(ZIP)模型采用与两个零生成过程相对应的两个组件。第一个过程由生成结构零的二进制分布控制。第二个过程由产生计数的泊松分布控制,其中一些计数可能为零。这两个模型组件描述如下:
如果结果变量具有任何非负整数值,则是第个人的预期泊松计数;是额外零的概率。
从Arnold及其同事(2008年)中,我看到零障碍模型是更通用的障碍模型类别的特例,但从Wikipedia(Hall,2004年)的参考资料中,我也看到一些零障碍模型是零障碍模型。膨胀模型可以是上限。我不太了解公式的区别,但是它们似乎很相似(两者都使用非常相似的示例,即保险索赔)。我希望其他答案可以帮助解释任何重要的差异,并且该答案将有助于为这些差异打下基础。
维基百科的参考: