零膨胀分布,它们实际上是什么?


15

我正在努力理解零膨胀分布。这些是什么?重点是什么?

如果我有很多零的数据,那么我可以先进行逻辑回归拟合,然后计算出零的概率,然后再去除所有零,然后使用我选择的分布来拟合正则回归(例如,泊松)。

然后有人告诉我“嘿,使用零膨胀分布”,但是查找它,似乎与我上面的建议没有什么不同?它有一个规则参数,然后有另一个参数可以模拟零概率?只是两件事同时发生了吗?μp


3
为什么要删除所有零?您可以一起做,首先计算0和1的概率,然后将其用作零膨胀模型(分布)的Poisson分布的权重。阅读此书
深北

Answers:


13

拟合逻辑回归首先计算零的概率,然后我可以删除所有零,然后使用我选择的分布拟合正则回归(例如,泊松)

你是绝对正确的。这是拟合零膨胀模型的一种方法(或者正如Achim Zeileis在评论中指出的那样,严格来说,这是一种“障碍模型”,可以将其视为零膨胀模型的一种特殊情况)。

您描述的过程与“多合一”零膨胀模型之间的区别是错误传播。像统计中所有其他两步过程一样,第2步中预测的总体不确定性将不考虑预测是否应为0的不确定性。

有时这是必要的邪恶。幸运的是,在这种情况下没有必要。在R中,您可以使用pscl::hurdle()fitdistrplus::fitdist()


您能解释一下“在第2步中预测的总体不确定性不会考虑到预测是否应为0的不确定性”吗?当你做了Zip泊松您将多个第一部分泊松模型的似然函数的概率,因此第2步将考虑0或1的不确定性
深北

1
@DeepNorth如果用“ 0或1的不确定性”表示类似,则该语句本身就是一个估计。作为估计,它周围存在一定程度的不确定性。合理值的范围是多少?我们对正确的信心如何?那就是不确定性,它不会在简单的两步过程中传播。P(Y=1|X=x)=0.510.51
Shadowtalker '17

3
@ssdecontrol通常,这不称为零膨胀模型,而称为障碍模型(例如pscl::hurdle())。为了获得适当的拟合度,用于数据的不带零的分布应被零截断(或首先不导致任何零)。有关更多详细信息,请参见我的回复。
Achim Zeileis '17

9

您描述的基本思想是一种有效的方法,通常被称为跨栏模型(或两部分模型),而不是零膨胀模型

但是,至关重要的是,用于非零数据的模型必须考虑消除零。如果您将Poisson模型拟合到不包含零的数据,则几乎可以肯定会产生较差的拟合,因为Poisson分布始终具有零的正概率。自然的选择是使用零截断的泊松分布,这是对计数数据进行回归回归的经典方法。

零膨胀模型和障碍模型之间的主要区别在于,该概率是在回归的二进制部分中建模的。对于障碍模型,它只是零概率与非零概率。在零膨胀模型中,存在多余零的概率,即不是由非膨胀分布(例如,泊松)引起的零概率。

有关R中计数数据的障碍模型和零通货膨胀模型的讨论,请参见我们在JSS中发布的手稿,该手稿还作为插图添加到了pscl软件包中:http : //dx.doi.org/10.18637/jss.v027.i08


7

ssdecontrol所说的非常正确。但是,我想在讨论中增加几分钱。

我刚刚在YouTube上观看了Richard McElreath的关于零充气模型的计数数据讲座

在控制解释纯Poisson模型速率的变量的同时估计p是有意义的,特别是如果您考虑到观察到的零源自Poisson分布的可能性不是100%,则尤其如此。

零膨胀分布作为多级模型

考虑模型的参数时,这也很有意义,因为最终得到两个变量来估计p和泊松模型的比率,以及两个方程,计数为零的情况以及计数与零。

图片来源:统计反思-Richard McElreath的R和Stan中的贝叶斯课程示例

编辑:错别字


赞赏学习资料的引用...但是这如何解决当前的问题?这看起来像是作为回答而张贴的评论……
RTbecard
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.