R / Stata软件包用于零截断的负二项式GEE?


13

这是我的第一篇文章。我非常感谢这个社区。

我正在尝试分析被零截断的纵向计数数据(响应变量= 0的概率为0)和均值=方差,因此在泊松上选择了负二项式分布。

我排除的功能/命令:

[R

  • R中的gee()函数不考虑零截断或负二项式分布(即使加载了MASS包也不)
  • R中的glm.nb()不允许使用不同的相关结构
  • VGAM软件包中的vglm()可以利用正负二项式族,但它与Stata的ztnb命令(请参见下文)存在相同的问题,因为我无法使用非独立的相关结构来重新拟合模型。

斯塔塔

  • 如果数据不是纵向的,那么我可以使用Stata包ztnb来运行分析,但是该命令假定我的观察是独立的。

由于各种方法论/哲学上的原因,我也排除了GLMM。

现在,我已经开始考虑Stata的xtgee命令(是的,我知道xtnbreg也会做同样的事情),该命令既考虑了非独立相关结构又考虑了负二项式族,但没有考虑零截断。使用xtgee的另一个好处是,我还可以计算qic值(使用qic命令)来确定响应变量的最佳拟合相关结构。

如果R或Stata中有一个程序包/命令可以考虑1)宾果式族,2)GEE和3)零截断,我想知道。

我非常感谢您可能有任何想法。谢谢。

-凯西

Answers:


12

对于R,有两个选项可供考虑,我充其量只是对这两个选项充斥而已。

第一个是pscl程序包,它可以非常灵活地适应零截断的充气和跨栏模型。该pscl软件包建议使用该sandwich软件包,该软件包提供“用于横截面,时间序列和纵向数据的模型鲁棒标准误差估计器”。因此,您可以拟合您的计数模型,然后使用该sandwich程序包考虑数据的纵向性质来估计残差的适当协方差矩阵。

第二种选择是查看geepack看起来可以执行所需操作的程序包,但仅适用于已知theta的负二项式模型,因为它适合R glm()函数可以使用的任何类型的GLM (因此请使用MASS的family函数) 。

第三种选择引起了人们的注意:gamlss它是附加软件包gamlss.tr。后者包括一个函数gen.trun(),该函数可以gamlss()灵活地将其支持的任何分布转换为截断的分布-例如,您可以指定在0负二项式分布处的左截断。gamlss()本身包括对随机效应的支持,应考虑数据的纵向性质。但是,现在还不清楚是否需要在模型中使用协变量的至少一个平滑函数,还是可以像在GLM中那样将所有事物建模为线性函数。


我相信pscl软件包仅适合零充气和跨栏模型。跨栏模型同时包含了左截断的计数部分和右删截的跨栏部分。我不知道如何运行甚至没有障碍组件也无法运行障碍模型,但是我将研究sandwick软件包。至于geepack包,似乎和gee包有同样的问题。当我指定一个“ negative.binomial”族(来自MASS)时,没有指定theta时,它将要求一个theta。但是,当我指定theta值时,它会吐出一个错误,表明这是一个无法识别的家庭。
艾里斯·

@Casey-对不起,我误读了您的要求,要求零截断。令人遗憾的是,geepack无法使用该家庭功能。如果有其他想法,我将在此处进行更新。
恢复莫妮卡-G.辛普森

@Casey我添加了有关该gamlss软件包的注释,该注释也可能适合R中的要求。
恢复莫妮卡-G.辛普森,

之所以接受您的答案,是因为对资源和功能的多种建议可以增进我的理解。看来“ gamlss”可能是解决我的问题的一种可能方法,但是由于我实际上不是统计学家,因此我目前没有数学背景,也没有时间打开这种蠕虫病毒罐(但是也许最终我会)。如另一条评论中所述,至少对于我的数据而言,忽略零截断似乎不会改变我的估计值和标准错误。对于我的目标受众,我相信一个二项式GEE会很好。谢谢!
艾里斯·

9

嗯,很好的第一个问题!我不知道能满足您确切要求的软件包。我认为Stata的xtgee是一个不错的选择,如果您还指定vce(robust)给出Huber-White标准错误的选项,或者vce(bootstrap)这很实际。这些选项中的任何一个都将确保即使忽略模型的零位错误,也能始终如一地估计标准误差,而忽略了零截断。

剩下的问题是忽略零截断会对您感兴趣的点估计产生什么影响。值得快速搜索一下是否有关于此的一般文献,即不一定在GEE环境中-我以为您可以肯定地假设任何这样的结果在GEE案例中也将是相关的。如果找不到任何内容,则始终可以使用零截断和已知效果估计来模拟数据,并通过模拟来评估偏差。


1
我确保估计可靠的标准误差。同样,在Zuur等人于2009年在书中的“带R的混合效应模型和生态学扩展”(第261页)中,他们提到:“如果响应变量的平均值较大,则忽略截断问题,然后应用泊松或负二项式(NB)广义线性模型(GLM)不太可能引起问题。” 幸运的是,我的响应变量的均值很大,因此与我的回归的GEE和负数方面相比,我更喜欢将零截断优先化。
艾里斯·

听起来您已经比我更了解此主题!或由于缺乏其他回应而判断此网站上的其他任何人。
一站式

这有点不可思议。谁知道过度分散的纵向计数数据将如此难以分析(如果不执行GLMM,我什至没有研究过)?如果仅对我的数据进行零膨胀,那将是另一回事了。
艾里斯·

5

我的论文也有同样的问题。在Stata中,我只是用两个对xtgee的调用构建了一个自定义.ado程序。

为此,我发现Partha Deb,Willard Manning和Edward Norton撰写的“建模医疗保健成本和计数”幻灯片/程序很有用。他们没有谈论纵向数据,但这是一个有用的起点。


1

我正在寻找有关glmmADMB解释的答案,并且看到了您的帖子。我知道已经很久了,但是我可能会找到答案。

使用跨栏模型时,请查看glmmADMB软件包。您必须将数据分析分为两部分:其中一项仅处理无零数据。您可以添加混合效果并选择分布。条件是数据必须是零膨胀的,我不知道这是否满足您的要求!无论如何,希望您早就发现了!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.