Questions tagged «zero-inflation»

与指定的参考分布相比,变量中的0过多。回归方法包括零膨胀模型和跨栏(两部分)模型。对于计数数据,基于泊松或负二项式分布的零膨胀模型和障碍模型是常见的(ZIP / ZINB和HP / HNB)。

1
零膨胀泊松或零膨胀负二项式的“偏差”度量?
比例偏差定义为D = 2 *(饱和模型的对数似然度减去拟合模型的对数似然度),通常用作GLM模型中拟合优度的度量。解释的偏差百分比定义为[D(零模型)-D(拟合模型)] / D(零模型),有时也用作线性回归的R平方的GLM模拟。除了ZIP和ZINB分布不属于指数分布的事实外,我很难理解为什么零膨胀建模中未使用比例偏差和百分比偏差。谁能对此有所启发或提供有用的参考?提前致谢!

3
连续数据堆积为零的GLM
我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。 可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么? 到目前为止,我决定将成本转换ln(1+cost)为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?

2
R中的零膨胀计数模型:真正的优势是什么?
为了分析零膨胀的鸟类计数,我想使用R包pscl应用零膨胀的计数模型。但是,查看文档中提供的主要功能之一(?zeroinfl)的示例后,我开始怀疑这些模型的真正优势是什么。根据此处给出的示例代码,我计算了标准泊松,拟泊松和负生物模型,简单的零膨胀泊松和负二项式模型以及零膨胀泊松模型和负二项式模型,其中零分量为回归变量。然后,我检查了观测数据和拟合数据的直方图。(这是复制该代码的代码。) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

2
泊松回归假设以及如何在R中对其进行检验
我想测试哪种回归最适合我的数据。我的因变量是一个计数,并且有很多零。 而且,我需要一些帮助来确定使用哪种模型和家庭(泊松或准泊松,或零膨胀泊松回归),以及如何检验这些假设。 泊松回归:据我了解,一个强有力的假设是因变量均值=方差。您如何测试呢?他们必须有多近?是否为此使用了无条件或有条件的均值和方差?如果这个假设不成立怎么办? 我读到,如果方差大于均值,则说明我们存在过度分散,解决这一问题的潜在方法是包括更多自变量,或称family = quasipoisson。此分布是否还有其他要求或假设?我该使用哪种测试来查看(1)或(2)是否更合适-简单anova(m1,m2)? 我还读到,当出现过度分散时,可以使用负二项分布。如何在R中执行此操作?与拟泊松有什么区别? 零膨胀泊松回归:我读到使用vuong检验可以检查哪种模型更合适。 > vuong (model.poisson, model.zero.poisson) 那是对的吗?零膨胀回归有什么假设? 加州大学洛杉矶分校的学术技术服务,统计咨询集团拥有部分约zeroinflated泊松回归,并测试与标准泊松模型(二)zeroinflated模型(一): > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) 我不了解| persons第一个模型的功能,以及为什么可以比较这些模型。我曾期望回归是相同的,只是使用不同的家庭。

1
零膨胀泊松分布的均值和方差
谁能用概率质量函数显示零膨胀泊松的期望值和方差 f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} 其中是通过二项式过程观察到的零值的概率,而是泊松的均值的推导?ππ\piλλ\lambda 结果为期望值,方差为。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 添加:我正在寻找一个过程。例如,您可以使用力矩生成功能吗?最终,我想看看如何做到这一点,以更好地理解零膨胀伽玛和其他。

2
正确使用和解释零膨胀伽玛模型
背景:我是一名生物统计学家,目前正在努力研究细胞表达率数据集。该研究使从各种供体中成组收集的大量细胞暴露于某些肽。细胞要么表达某些生物标志物,要么不表达。然后记录每个捐助者群体的答复率。应答率(以百分比表示)是关注的结果,而肽暴露则是预测因素。 请注意,观察结果集中在捐助者之内。 由于我只有汇总数据,因此我将捐助方的回应率视为连续数据(至少目前如此)。 复杂性源于我的数据中有很多零的事实。太多不容忽视。我正在考虑使用零膨胀伽玛模型来处理这样一个事实,即我歪曲了连续数据以及过多的零。我也考虑过Tobit模型,但是由于它假设检查范围是下限,而不是真正的零(计量经济学家可能会说这是没有意义的),因此它看起来很差。 问题:通常来说,什么时候使用零膨胀伽玛模型合适?也就是说,有什么假设?以及如何解释其推论?如果您有任何讨论此文章的链接,我将不胜感激。 我在SAS-L上找到了一个链接,其中Dale McLerran为零膨胀的伽马模型提供了NLMIXED代码,因此这似乎是可能的。尽管如此,我还是不想盲目地充电。


2
零截断的Poisson和基本Poisson是嵌套的还是非嵌套的?
我已经看到了很多讨论基本Poisson回归是否为零膨胀Poisson回归的嵌套版本的文章。例如,此站点认为是这样,因为后者包括用于建模其他零的额外参数,但其他方面包括与前者相同的泊松回归参数,尽管该页面确实包含了不同意的引用。 我找不到的信息是是否嵌套了零截断的Poisson和基本的Poisson。如果零截断的Poisson只是具有额外规定零计数的概率为零的Poisson,那么我想听起来像是可能的,但我希望有一个更明确的答案。 我想知道的原因是,这会影响我是否应该使用Vuong检验(对于非嵌套模型),还是基于对数似然差的更基本的卡方检验(对于嵌套模型)。 威尔逊(2015)讨论了Vuong检验是否适合将零膨胀回归与基本检验进行比较,但我找不到讨论零截断数据的资料。

3
如何测试/证明数据为零膨胀?
我有一个问题,我认为应该很简单,但无法完全解决。我正在查看种子授粉,我有成簇开花的植物(n = 36),我从每棵植物中采样了3个花簇,并从每个簇中采样了6个种子荚(每个植物总计18个种子荚)。一个豆荚可以授粉0到4个种子。因此,数据是有上限的计数。我发现平均约有10%的种子被授粉,但在给定植物上的授粉量介于1%至30%之间,因此在分散的数据上,当然,在3棵植物上有4个缺失的簇重复,因此不完全对称。 我要问的问题是,这些数据是否支持这种植物需要传粉媒介进行结实的想法。 我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚(16个中有6-9个豆荚)以及更多的3个和4个授粉种子豆荚(每个有2-4个)如果种群中的种子只是随机授粉,这是可以预期的。基本上,我认为这是零膨胀数据的经典示例,首先,昆虫完全不访问花朵(一个零生成器),如果这样做,则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的,然后可以预期每个种子都具有相同的授粉概率(此数据表明大约有0.1的机会,这意味着同一荚中的两粒种子有0.01的机会,依此类推) 。 但是我只是想证明数据最适合一种或另一种分布,而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情,我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中,进行10,000次,看看有多大可能性给定植物的实验数据来自该随机分布。 我只是觉得有些事情比蛮力自举要容易得多,但是经过几天的思考和搜索,我放弃了。我不能仅将其与Poisson分布进行比较,因为它是上限,它不是二项式的,因为我需要以某种方式生成期望的分布。有什么想法吗?而且我正在使用R,所以这里的建议(尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中)。 ADDED 9/07/2012首先,感谢大家的关注和帮助。阅读答案,使我想重新表达我的问题。我要说的是,我有一个假设(种子现在我认为是无效的),即种子在豆荚之间随机授粉,而我的另一种假设是,至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例,以说明我在说什么。第一列是豆荚中已授粉种子的数量,第二列是具有该种子数的豆荚的频率。 植物1(总共3粒种子:4%授粉) 种子数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2(总共19粒种子:26%授粉) num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3(总共16粒种子:22%授粉) num.seeds :: …

1
如何从R零膨胀计数数据回归中获得标准误差?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 以下代码 PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 产生3列data.frame--PredictNew,拟合值,标准误差和残差标度项。 完美...但是使用的模型配备zeroinfl {pscl}: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 要么 PredictNew <- predict (zeroinfl.fit, newdata = Predict, …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.