正确使用和解释零膨胀伽玛模型


11

背景:我是一名生物统计学家,目前正在努力研究细胞表达率数据集。该研究使从各种供体中成收集的大量细胞暴露于某些肽。细胞要么表达某些生物标志物,要么不表达。然后记录每个捐助者群体的答复率。应答率(以百分比表示)是关注的结果,而肽暴露则是预测因素。

请注意,观察结果集中在捐助者之内。

由于我只有汇总数据,因此我将捐助方的回应率视为连续数据(至少目前如此)。

复杂性源于我的数据中有很多零的事实。太多不容忽视。我正在考虑使用零膨胀伽玛模型来处理这样一个事实,即我歪曲了连续数据以及过多的零。我也考虑过Tobit模型,但是由于它假设检查范围是下限,而不是真正的零(计量经济学家可能会说这是没有意义的),因此它看起来很差。

问题:通常来说,什么时候使用零膨胀伽玛模型合适?也就是说,有什么假设?以及如何解释其推论?如果您有任何讨论此文章的链接,我将不胜感激。

在SAS-L上找到了一个链接,其中Dale McLerran为零膨胀的伽马模型提供了NLMIXED代码,因此这似乎是可能的。尽管如此,我还是不想盲目地充电。

Answers:


5

首先,您没有在表达式数据中看到真正的零。您的生物学家在说,就像所有生物学家一样,但是当生物学家说“它为零”时,实际上意味着“它低于我的检测阈值,因此不存在”。由于该领域缺乏数学复杂性,这是一种语言问题。我是根据个人经验讲的。

您提供的链接中关于零膨胀Gamma的解释非常好。据我了解,导致数据产生的物理过程是选择供体,然后用某种肽进行处理,然后从该供体的细胞中测量应答。这里有几层。一个是供体反应的整体强度,它决定了所测量的每个特定细胞的表达水平。如果您将零膨胀伽玛中的伯努利变量解释为“捐助者的反应足够强到可以衡量”,那么可能会很好。只需注意,在这种情况下,您会将各个细胞表达的噪音与强烈反应的供体之间的变异混为一谈。由于单个单元格中的表达噪声大致呈伽马分布,

如果供体和细胞之间的额外变异没有破坏您的Gamma适应度,而您只是试图表达与应用的肽相比,那么就没有理由不应该这样做了。

如果需要进行更详细的分析,则建议您构建一个自定义的层次模型以匹配导致您进行测量的过程。


3

我找到了一种相当优雅的解决方案。文献中有一篇非常出色的文章,标题为“在零成簇的情况下重复测量数据的分析”,该文论证了相关数据的零膨胀对数正态模型。作者提供了一个基于PROC NLMIXED且非常易于实现的SAS宏。好消息是,通过忽略repeated宏中的语句,可以将其简化为没有聚集观察的情况。坏消息是NLMIXED还没有我们经常需要的许多关联结构,例如自回归。

该宏名为MIXCORR,并且具有一个非常有用的Wiki页面,您可以在此处找到。宏本身可以在此处下载。

我强烈建议所有这些链接。希望您发现它们有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.