背景:我是一名生物统计学家,目前正在努力研究细胞表达率数据集。该研究使从各种供体中成组收集的大量细胞暴露于某些肽。细胞要么表达某些生物标志物,要么不表达。然后记录每个捐助者群体的答复率。应答率(以百分比表示)是关注的结果,而肽暴露则是预测因素。
请注意,观察结果集中在捐助者之内。
由于我只有汇总数据,因此我将捐助方的回应率视为连续数据(至少目前如此)。
复杂性源于我的数据中有很多零的事实。太多不容忽视。我正在考虑使用零膨胀伽玛模型来处理这样一个事实,即我歪曲了连续数据以及过多的零。我也考虑过Tobit模型,但是由于它假设检查范围是下限,而不是真正的零(计量经济学家可能会说这是没有意义的),因此它看起来很差。
问题:通常来说,什么时候使用零膨胀伽玛模型合适?也就是说,有什么假设?以及如何解释其推论?如果您有任何讨论此文章的链接,我将不胜感激。
我在SAS-L上找到了一个链接,其中Dale McLerran为零膨胀的伽马模型提供了NLMIXED代码,因此这似乎是可能的。尽管如此,我还是不想盲目地充电。