Answers:
拟合逻辑回归首先计算零的概率,然后我可以删除所有零,然后使用我选择的分布拟合正则回归(例如,泊松)
你是绝对正确的。这是拟合零膨胀模型的一种方法(或者正如Achim Zeileis在评论中指出的那样,严格来说,这是一种“障碍模型”,可以将其视为零膨胀模型的一种特殊情况)。
您描述的过程与“多合一”零膨胀模型之间的区别是错误传播。像统计中所有其他两步过程一样,第2步中预测的总体不确定性将不考虑预测是否应为0的不确定性。
有时这是必要的邪恶。幸运的是,在这种情况下没有必要。在R中,您可以使用pscl::hurdle()
或fitdistrplus::fitdist()
。
pscl::hurdle()
)。为了获得适当的拟合度,用于数据的不带零的分布应被零截断(或首先不导致任何零)。有关更多详细信息,请参见我的回复。
您描述的基本思想是一种有效的方法,通常被称为跨栏模型(或两部分模型),而不是零膨胀模型。
但是,至关重要的是,用于非零数据的模型必须考虑消除零。如果您将Poisson模型拟合到不包含零的数据,则几乎可以肯定会产生较差的拟合,因为Poisson分布始终具有零的正概率。自然的选择是使用零截断的泊松分布,这是对计数数据进行回归回归的经典方法。
零膨胀模型和障碍模型之间的主要区别在于,该概率是在回归的二进制部分中建模的。对于障碍模型,它只是零概率与非零概率。在零膨胀模型中,存在多余零的概率,即不是由非膨胀分布(例如,泊松)引起的零概率。
有关R中计数数据的障碍模型和零通货膨胀模型的讨论,请参见我们在JSS中发布的手稿,该手稿还作为插图添加到了pscl
软件包中:http : //dx.doi.org/10.18637/jss.v027.i08
ssdecontrol所说的非常正确。但是,我想在讨论中增加几分钱。
我刚刚在YouTube上观看了Richard McElreath的关于零充气模型的计数数据讲座。
在控制解释纯Poisson模型速率的变量的同时估计p是有意义的,特别是如果您考虑到观察到的零源自Poisson分布的可能性不是100%,则尤其如此。
考虑模型的参数时,这也很有意义,因为最终得到两个变量来估计p和泊松模型的比率,以及两个方程,计数为零的情况以及计数与零。
图片来源:统计反思-Richard McElreath的R和Stan中的贝叶斯课程示例
编辑:错别字