确定计数数据合适模型的策略


16

决定对计数数据使用哪种模型的合适策略是什么?我已经计算了需要建模为多级模型的数据,并建议我(在此站点上)做到这一点的最佳方法是通过错误或MCMCglmm。但是,我仍在尝试了解贝叶斯统计,并且我认为我应该首先尝试将我的数据拟合为广义线性模型,而忽略数据的嵌套结构(只是这样我才能对预期的结果有一个模糊的想法)。

大约70%的数据为0,方差与平均值的比率为33。因此,数据过于分散。

在尝试了许多不同的选择(包括泊松,负二项式,拟和零膨胀模型)之后,我发现结果的一致性非常差(从所有重要变量变为没有重要变量)。

我该如何基于0通货膨胀和过度分散做出明智的决定,以选择哪种类型的模型?例如,我怎么能推断准泊松比负二项式更合适(反之亦然),又怎会知道使用其中一个已经充分(或没有)处理了多余的零?同样,如果使用零膨胀模型,我如何评估不再有过度分散?还是应该在零膨胀的泊松和零膨胀的负二项式之间做出选择?

Answers:


9

您始终可以通过查看计数模型的预测来比较计数模型(最好是保留模型)。J. Scott Long对此进行了图形化讨论(将预测值与实际值作图)。他的教科书在此详细介绍,但您也可以在本文档中查看6.4

您可以使用AIC或BIC比较模型,还有一个我不十分熟悉的名为Voung测试的测试,但是可以将零膨胀与非嵌套模型进行比较。以下是Sas论文,第10页对此进行了简要介绍,以帮助您入门。R 发布中也有实施


谢谢你的建议。我一定会努力决定模型之前检查预测
乔治米海利德斯

5

B_Miner所说的要补充的几件事:

1)您写道,模型从“所有重要”到“没有重要”不等,但这不是比较模型的好方法。相反,请看预测值(如B_miner建议)和效果大小。

2)如果70%的数据为0,我无法想象没有0通货膨胀的模型是合适的。

3)即使您不想采用贝叶斯方法,也可以在SAS(PROC GLIMMIX或NLMIXED)和R(各种包装)中使用GLMM。忽略嵌套的性质可能会使一切混乱。

4)一般来说,决定哪种模式最好是一门艺术,而不是一门科学。有一些统计数据可以使用,但是它们是判断的指南。只看您写的内容,我会说ZINB模型看起来不错


目的是我最终将尝试使用贝叶斯模型对此进行建模,但是我试图理解在拟合模型之前如何做出决定。如果有可能忽略数据的嵌套性质,那么我将首先尝试使用GLMM。我知道的R唯一可以执行多级ZINB的软件包是glmmADMB。您会推荐其他套餐吗?
乔治·米歇里德斯

4

我的理解是,当某些项目有理由产生零计数与任何其他计数时,应使用零膨胀分布。换句话说,如果零是通过一个独立的过程而不是一个产生其他计数的过程产生的,则应使用零膨胀分布。如果您没有理由,考虑到样本中的过度分散,建议使用负二项式分布,因为它可以准确地表示零的数量,并且可以通过自由估计该参数来表示未观察到的异质性。如上所述,Scott Long的书是很好的参考。


感谢您的回答。确实,我开始考虑不同的项目是否可以产生0而不是其他任何计数,而我实际上认为我有几个变量只能解释0而不是其他任何计数。因此,可能我至少应该首先尝试ZINB,看看我的这些变量是否按照我期望的方式工作。
乔治·米歇里德斯

3

完全同意Matt所说的话,首先您必须考虑数据的背景...当总体中没有零生成触发器时,拟合ZI模型没有任何意义!NB模型的优点是它们可以在伽马分布的随机变量中显示未观察到的异质性。技术上:过度分散的主要原因是非均质性和零通胀。我不认为您的健康状况不好。顺便说一句,要获得拟合优度,您应该始终将偏差与模型的自由度进行比较。如果偏差D高于n-(p + 1)(这是df),则应搜索更好的模型。尽管几乎没有比ZINB更好的模型可以消除过度分散。

如果要使ZINB与R配合,请获取包装pscl并尝试使用命令zeroinfl(<model>, dist=negative)。有关更多信息,请?zeroinfl在加载所需的软件包后查看!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.