Questions tagged «count-data»

计数数据是代表总数的非负整数。

4
R / Stata软件包用于零截断的负二项式GEE?
这是我的第一篇文章。我非常感谢这个社区。 我正在尝试分析被零截断的纵向计数数据(响应变量= 0的概率为0)和均值=方差,因此在泊松上选择了负二项式分布。 我排除的功能/命令: [R R中的gee()函数不考虑零截断或负二项式分布(即使加载了MASS包也不) R中的glm.nb()不允许使用不同的相关结构 VGAM软件包中的vglm()可以利用正负二项式族,但它与Stata的ztnb命令(请参见下文)存在相同的问题,因为我无法使用非独立的相关结构来重新拟合模型。 斯塔塔 如果数据不是纵向的,那么我可以使用Stata包ztnb来运行分析,但是该命令假定我的观察是独立的。 由于各种方法论/哲学上的原因,我也排除了GLMM。 现在,我已经开始考虑Stata的xtgee命令(是的,我知道xtnbreg也会做同样的事情),该命令既考虑了非独立相关结构又考虑了负二项式族,但没有考虑零截断。使用xtgee的另一个好处是,我还可以计算qic值(使用qic命令)来确定响应变量的最佳拟合相关结构。 如果R或Stata中有一个程序包/命令可以考虑1)宾果式族,2)GEE和3)零截断,我想知道。 我非常感谢您可能有任何想法。谢谢。 -凯西

1
泊松与拟泊松模型中估计的相同系数
在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。 如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处? 注意事项: 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。 每个Ben指导的有用SE线程: 泊松回归中偏移的基本数学 偏移量对系数的影响 使用曝光作为协变量与偏移量之间的区别

1
找不到适合混合效果的计数数据的良好模型-ZINB还是其他?
我有一个关于单蜂丰度的非常小的数据集,我无法进行分析。它是计数数据,几乎所有计数都在一种处理中,而大多数零在另一种处理中。还有两个非常高的值(六个站点中的两个站点中的每个站点),因此计数分布的尾巴非常长。我正在R中工作。我使用了两个不同的软件包:lme4和glmmADMB。 泊松混合模型不适合:当不拟合随机效应时模型过于分散(glm模型),而当拟合随机效应时模型分散不充分(glmer模型)。我不明白为什么会这样。实验设计要求嵌套随机效应,因此我需要将它们包括在内。泊松对数正态误差分布不会提高拟合度。我使用glmer.nb尝试了负二项式误差分布,但无法拟合它–达到了迭代极限,即使使用glmerControl(tolPwrss = 1e-3)更改了公差。 因为很多零是由于我根本看不到蜜蜂(它们通常是微小的黑色物体)而造成的,所以我接下来尝试了零膨胀模型。ZIP不太适合。ZINB是迄今为止最好的模型拟合,但是我仍然对模型拟合不太满意。我不知道下一步该怎么做。我确实尝试了跨栏模型,但无法将截断分布拟合到非零结果–我认为是因为在控制处理中有很多零(错误消息是“ Model.frame.default(formula = s.bee〜tmt + lu +:可变长度不同(发现为“治疗”)”)。 另外,我认为我所包含的交互对我的数据做了一些奇怪的事情,因为系数很小,尽管当我比较bbmle软件包中使用AICctab的模型时包含交互的模型是最好的。 我包括一些R脚本,这些脚本几乎可以重现我的数据集。变量如下: d = Julian日期,df = Julian日期(作为因子),d.sq = df平方(蜜蜂数量增加,然后整个夏天下降),st =站点,s.bee =蜜蜂数量,tmt =处理,lu =土地利用类型,hab =周围景观中半自然栖息地的百分比,ba =边界地区的圆形田地。 非常感谢收到关于如何获得良好模型拟合的任何建议(替代误差分布,不同类型的模型等)! 谢谢。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, …


3
为过度分散的计数数据选择Poisson回归的替代方法
我目前正在分析来自一系列行为实验的数据,这些实验均使用以下措施。要求此实验的参与者选择其他人可以用来帮助解决一系列10字谜的(虚拟)线索。参与者被认为这些其他人会赚钱或亏钱,这取决于他们在解决七巧板游戏中的表现。线索在帮助方面有多种。例如,对于字母NUNGRIN(运行)的字母,可能有以下三个线索: 快速行动(无益) 您在马拉松比赛中做什么(有帮助) 并非总是健康的爱好(无益) 为了衡量这一指标,我计算了参与者(为10)选择另一个对他人没有帮助的线索的次数。在实验中,我使用各种不同的操作来影响人们选择的线索的有用性。 因为有帮助/无帮助的度量存在明显的正偏斜(大部分人总是选择10条最有用的线索),并且由于该度量是计数变量,所以我一直在使用Poisson广义线性模型来分析这些数据。但是,当我对Poisson回归进行更多阅读时,我发现由于Poisson回归不能独立估计分布的均值和方差,因此它常常低估了一组数据中的方差。我开始研究泊松回归的替代方法,例如拟泊松回归或负二项式回归。但是,我承认我对这类模型还很陌生,所以我来这里寻求建议。 是否有人建议将哪种模型用于此类数据?我还有其他需要注意的考虑因素(例如,一种特定的模型比另一种模型更强大吗?)?我应该查看哪种诊断方法来确定我选择的模型是否正确处理了我的数据?

2
计数数据方差的参数化建模
我正在为某些数据建模,但是我不确定我可以使用哪种类型的模型。我有计数数据,我想要一个模型,该模型将给出数据均值和方差的参数估计。也就是说,我有各种预测因素,我想确定是否有任何因素会影响方差(而不仅仅是组均值)。 我知道泊松回归将不起作用,因为方差等于均值。这个假设对我而言无效,因此我知道存在过度分散的情况。但是,负二项式模型只会生成一个过分散参数,而不会作为模型中预测变量的函数。什么模型可以做到这一点? 另外,将赞赏对讨论模型的书或论文的参考和/或实现模型的R包。


4
在这种情况下,泊松回归与线性回归相比有什么优势?
我获得了一个数据集,其中包含一所高中学生获得的奖励数量,其中预测的奖励数量包括该学生注册的课程类型以及他们的数学期末考试成绩。 我想知道是否有人可以告诉我为什么线性回归模型在这种情况下可能不合适,以及为什么使用泊松回归会更好?谢谢。

2
泊松回归假设以及如何在R中对其进行检验
我想测试哪种回归最适合我的数据。我的因变量是一个计数,并且有很多零。 而且,我需要一些帮助来确定使用哪种模型和家庭(泊松或准泊松,或零膨胀泊松回归),以及如何检验这些假设。 泊松回归:据我了解,一个强有力的假设是因变量均值=方差。您如何测试呢?他们必须有多近?是否为此使用了无条件或有条件的均值和方差?如果这个假设不成立怎么办? 我读到,如果方差大于均值,则说明我们存在过度分散,解决这一问题的潜在方法是包括更多自变量,或称family = quasipoisson。此分布是否还有其他要求或假设?我该使用哪种测试来查看(1)或(2)是否更合适-简单anova(m1,m2)? 我还读到,当出现过度分散时,可以使用负二项分布。如何在R中执行此操作?与拟泊松有什么区别? 零膨胀泊松回归:我读到使用vuong检验可以检查哪种模型更合适。 > vuong (model.poisson, model.zero.poisson) 那是对的吗?零膨胀回归有什么假设? 加州大学洛杉矶分校的学术技术服务,统计咨询集团拥有部分约zeroinflated泊松回归,并测试与标准泊松模型(二)zeroinflated模型(一): > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) 我不了解| persons第一个模型的功能,以及为什么可以比较这些模型。我曾期望回归是相同的,只是使用不同的家庭。

3
比较计数数据上的回归模型
我最近将4个多元回归模型用于相同的预测因子/响应数据。我适合泊松回归的两个模型。 model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) 我使用负二项式回归拟合的两个模型。 library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) 我可以使用统计检验来比较这些模型吗?我一直在使用AIC来衡量合身程度,但AFAIK并不代表实际测试。

2
非常偏斜的群集,计数数据:有什么建议(转换等)?
基本问题 这是我的基本问题:我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零,因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。 很好,您说的是,只需使用平方根,Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的,所以我担心我可能会通过处理一个变量(基于分类变量的一个值)而使其他变量(基于分类变量的其他值)而产生偏差。 。 让我们更详细些。 数据集 我的数据集代表物品的购买。这些项目具有不同的类别,例如颜色:蓝色,红色和绿色。然后,例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表,因此我必须以某种方式汇总客户的购买量。 我这样做的方式是通过计算购买次数,其中该商品是某种颜色。因此,而不是一个变量color,我结束了三个变量count_red,count_blue和count_green。 这是一个示例说明: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …

3
哪种回归模型最适合用于计数数据?
我想稍微了解一下统计信息,但是我有些固执。我的数据如下: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 我现在想建立一个回归模型,以便能够根据数据预测任何给定年份的基因数量。直到现在,我都使用线性回归进行分析,但是我已经阅读了一些文章,对于这种数据,它似乎并不是最佳选择。我已经读过泊松回归可能有用,但是我不确定该使用什么。所以我的问题是: 是否有针对此类数据的通用回归模型?如果不是,我该怎么做才能找出最适合使用哪种方法(就我必须了解的数据而言)?

2
标度变量作为计数数据-对不对?
在本文中(可通过PubMed Central免费获得),作者使用负二项式回归在得分为0-40的10项筛选工具上对得分进行建模。此过程假定计数数据,这里显然不是这种情况。我希望您对此方法是否可以接受发表意见,因为有时我在工作中使用相同或相似的工具。如果没有,我想知道是否有任何可接受的替代方法。以下是更多详细信息: 所使用的量表是酒精使用障碍识别测试(AUDIT),这是一项10项问卷,旨在筛查酒精使用障碍和有害/有害饮酒。乐器的得分从0到40,并且结果通常偏左。 据我了解,使用计数数据是假设所有“计数”的值彼此独立-每天上急诊室的患者,特定人群中的死亡人数等-它们彼此独立,尽管取决于基础变量。此外,我认为使用计数数据时不能有最大允许计数,尽管我认为当理论最大值与数据中观察到的最大值相比很高时,可以放宽此假设? 使用AUDIT量表时,我们没有真实的计数。我们有10个项目,最大总分40,尽管在实践中很少看到高分。这些项目的分数自然相互关联。 因此违反了使用计数数据所需的假设。但这仍然是可以接受的方法吗?违反这些假设有多严重?在某些情况下可以认为此方法更可接受?该方法是否有不涉及将scale变量减少到类别的替代方法?

2
在预测冰球运动员的职业生涯总目标时是否在Poisson回归中使用偏移
我有一个关于不愿使用补偿的问题。假设一个非常简单的模型,您要在其中描述曲棍球的(全部)目标数。因此,您有目标,打的游戏次数和虚拟变量“ strike”(如果玩家是前锋,则等于1,否则等于0)。那么正确指定了以下哪个模型? 目标=游戏+前锋,或 目标=偏移量(游戏)+前锋 同样,目标是整体目标,游戏数量是单个玩家的整体游戏。例如,可能有一个玩家在100场比赛中有50个进球,而另一个在50场比赛中有20个进球的玩家,依此类推。 我想估算目标数时应该怎么做?是否真的需要在此处使用偏移量? 参考文献: 参见前面的问题,讨论一般在Poisson回归中何时使用偏移量。

3
建模计数数据,其中偏移变量为0的某些观察结果
我正在努力帮助一位同事的学生。学生在实验设置中观察并计算了鸟类行为(叫声次数)。虽然无法确定每个实验中可观察到的特定鸟类的召唤次数,但可以计算促成记录的召唤次数的鸟类数量。因此,我最初的建议是在Poisson GLM模型中将鸟的数量作为偏移项包括在内,因此,我们将拟合每只鸟的预期通话数量。 问题在于,在许多观察场合中,没有观察到鸟(因此也没有鸣叫)。该软件(在这种情况下为R)抱怨是因为日志(0 )= − inf日志⁡(0)=-信息\log(0) = -\inf(R抱怨y包含-Inf的数据,但是纯粹的结果offset(log(nbirds))是-Inf)。 我实际上怀疑我们需要一个障碍模型(或类似模型),在该模型中,我们有一个单独的二项式模型用于“观察到的呼叫”?(或没有)和截断计数模型(在有电话的情况下,每只鸟的电话数),其中仅将偏移项包括在模型的计数部分中。 在R中使用pscl包尝试了此操作,但是我仍然遇到相同的错误: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 因为即使我认为这不会影响适合这些观察值的模型,也要检查相同的R代码(glm.fit供内部使用hurdle()以适合计数模型的一部分)-Inf。(这是一个正确的假设吗?) 我可以通过将一个较小的数字添加到NumberCOPO(例如0.0001)中来使模型适合,但这充其量只是一种捏造。 在实践中添加这种小的连续性校正是否可以?如果不是,在泊松模型中偏移变量可以取值为0的Poisson模型中处理数据时,我们还应该考虑其他哪些方法?我遇到的所有示例都是针对offset变量不可能为0的情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.