Questions tagged «count-data»

计数数据是代表总数的非负整数。

1
为什么建议对计数数据使用平方根变换?
当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好?


1
交叉验证泊松模型的误差度量
我正在交叉验证试图预测计数的模型。如果这是二进制分类问题,那么我将计算出不匹配的AUC,如果这是回归问题,则将计算出不匹配的RMSE或MAE。 对于Poisson模型,我可以使用哪些误差度量来评估样本外预测的“准确性”?是否存在AUC的Poisson扩展,可以查看预测对实际值的排序程度? 似乎很多Kaggle竞赛都在使用根均方根平方误差或RMLSE来进行计数(例如,一次yelp审查将获得的有用票数或患者在医院花费的天数)。 /编辑:我一直在做的一件事是计算预测值的十分之一,然后查看实际计数,并按分位数进行分组。如果十分位数1低,十分位数10高且两者之间的十分位数都在增加,则我一直将该模型称为“好”,但是我一直难以量化此过程,并且我相信会有更好的方法方法。 /编辑2:我正在寻找一个公式,该公式采用预测值和实际值并返回一些“错误”或“准确性”指标。我的计划是在交叉验证过程中根据折叠数据计算此函数,然后将其用于比较各种模型(例如,泊松回归,随机森林和GBM)。 例如,一个这样的函数是RMSE = sqrt(mean((predicted-actual)^2))。另一个这样的功能是AUC。这两个函数似乎都不适合泊松数据。

2
广义线性(混合)模型(特别是残差)的诊断
我目前正在努力为困难计数数据(因变量)找到正确的模型。我尝试了各种不同的模型(对于我的数据,混合效果模型是必需的),例如lmer和lme4(使用对数变换),以及具有各种族(例如高斯或负二项式)的广义线性混合效果模型。 但是,我不确定如何正确诊断结果拟合。我在网络上发现了关于该主题的许多不同意见。我认为关于线性(混合)回归的诊断非常简单。您可以继续进行分析残差(正态),并通过绘制拟合值与残差比较来研究异方差。 但是,您如何针对通用版本正确执行此操作?现在让我们关注负二项式(混合)回归。我在这里看到了关于残差的非常相反的说法: 在第一个答案中指出,在广义线性模型中检查残差的正态性时,对于GLM,普通残差不是正态分布的。我认为这很清楚。但是,然后指出,皮尔逊和偏差残差也不应该是正常的。但是,第二个答案指出,偏差残差应该正态分布(与参考值结合)。 不过,?glm.diag.plots(来自R的boot软件包)的文档中暗示了异常残差应该以正态分布。 在这篇博客文章中,作者首先研究了NB混合效应回归模型中Pearson残差的正态性。不出所料(根据我的诚实观点),残差未显示为正常,因此作者认为此模型不合适。但是,如评论中所述,残差应根据负二项式分布进行分配。我认为,这与事实最接近,因为GLM残差可以具有除正态分布以外的其他分布。它是否正确?如何在此处检查异方差性? Ben&Yohai(2004)强调了最后一点(将残差与估计分布的分位数作图)。目前,这似乎是我要走的路。 简而言之:如何特别针对残差,如何正确研究广义线性(混合)回归模型的模型拟合?

3
“跨栏模式”真的是一种模式吗?还是只有两个单独的顺序模型?
考虑一个y从正常预测变量中预测计数数据的障碍模型x: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 在这种情况下,我有69个零和31个正计数的计数数据。目前,请不要忘记,根据数据生成过程的定义,这是一个泊松过程,因为我的问题是关卡模型。 假设我想通过障碍模型处理这些多余的零。从我对它们的阅读中,似乎障碍模型本身并不是实际的模型,而是依次进行两种不同的分析。首先,进行逻辑回归,以预测该值是否为正对零。第二,零截断的Poisson回归仅包含非零情况。第二步对我来说是错误的,因为它是(a)丢弃完美的数据,(b)由于许多数据为零,可能会导致电源问题,并且(c)基本上不是其自身的“模型” ,但只需依次运行两个不同的模型即可。 因此,我尝试了“障碍模型”,而不是分别运行逻辑和零截断的泊松回归。他们给了我相同的答案(为简洁起见,我将输出缩写): > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson …

2
负二项分布的连续推广
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķ ∈ Ñ0ķ∈ñ0k\in \mathbb N_0通过X ∈ ř≥ 0X∈[R≥0x\in\mathbb R_{\ge 0})?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积(k + 1 )⋅ … ⋅ (k + r − 1 )(ķ+1个)⋅…⋅(ķ+[R-1个)(k+1)\cdot\ldots\cdot(k+r-1)对于任何实数k都是定义明确的ķķk。因此,我们将得到一个PDF F(X ; - [R ,p )α Π我= 1r − 1(X + 我)⋅ pX(1 − p )[R。F(X;[R,p)∝∏一世=1个[R-1个(X+一世)⋅pX(1个-p)[R。f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. 更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R[Rr: F(X …

4
这是测试自杀人数数据中季节性影响的适当方法吗?
我有17年(1995年至2011年)的死亡证明数据与美国某州的自杀死亡有关。关于自杀和自杀的个月数/季节,有很多神话,其中很多是自相矛盾的,我的文献中经过审查,我对所使用的方法或结果的把握并不清楚。 因此,我着手确定是否可以确定我的数据集中在任何给定月份内自杀的可能性或高或低。我所有的分析都在R中完成。 数据中的自杀总数为13,909。 如果您以自杀次数最少的年份为例,它们发生在309/365天(85%)。如果您查看自杀次数最多的年份,则发生在339/365天(93%)。 因此,每年都有相当多的日子没有自杀。但是,如果将这17年的总和汇总起来,那么一年中的每一天(包括2月29日)都会有自杀事件(尽管平均值为38时只有5次)。 (在我看来)仅将一年中每一天的自杀总数加起来并不表示明显的季节性。 按月汇总,每月平均自杀范围为: (m = 65,sd = 7.4,至m = 72,sd = 11.1) 我的第一种方法是按年份汇总所有年份的数据集,并在计算出原假设的预期概率后得出卡氏检验,即按月计算的自杀人数没有系统差异。我考虑了天数(并针对taking年调整了2月),计算了每个月的概率。 卡方结果表明按月没有明显变化: # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下图显示了每月的总数。水平红线分别位于2月,30天和31天月份的期望值。与卡方检验一致,对于预期计数,没有一个月份在95%置信区间之外。 我以为我已经做完了,直到我开始研究时间序列数据。正如我想象的那样,我首先使用stlstats包中的函数进行非参数的季节性分解方法。 为了创建时间序列数据,我从汇总的每月数据开始: suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

9
计数数据的时间序列,计数<20
我最近开始为结核病诊所工作。我们会定期开会,讨论我们目前正在治疗的结核病病例数,进行的检测数目等。我想开始对这些计数进行建模,以便我们不只是猜测是否有异常。不幸的是,我几乎没有时间序列方面的培训,并且我大部分时间都在接触非常连续的数据(股价)或大量计数(流感)的模型。但是我们每月处理0-18例(平均6.68,中位数7,变量12.3),分布情况如下: [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章,但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。 编辑: mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了,失去了问题的实际重点。我想知道的是:(从2008年开始)(明显可见)的下降是否反映了案件总数的下降趋势?在我看来,2001-2007年间每月的案件数量反映了一个稳定的过程;也许有些季节性,但总体稳定。从2008年至今,情况似乎正在发生变化:案件总数正在下降,尽管由于随机性和季节性,每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化?如果我能确定下降,

1
何时将Poisson,几何和负二项式GLM用于计数数据?
在GLM框架内(8个GLM分布中只有3个用于计数数据),我试图为自己布局适合何时使用哪种回归类型(几何,泊松,负二项式)和计数数据。我已阅读了有关负二项式和泊松分布的文章。 何时将Poisson,几何和负二项式GLM用于计数数据? 到目前为止,我有以下逻辑:它计数数据吗?如果是,均值和方差不相等吗?如果是,则为负二项式回归。如果否,则泊松回归。零通胀吗?如果是,则零泊松或零负二项式。 问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗?据我了解,一旦您切换到ZIP,平均方差等于假设就可以放宽了,因此它再次与NB非常相似。 问题2几何族适用于此?在决定是否在回归中使用几何族时,我应该问数据什么样的问题? 问题3我看到人们一直在交换负二项式和泊松分布,而不是几何形状,因此我猜想何时使用它会有明显不同。如果是这样,那是什么? PS:如果人们想评论/调整它以便进行讨论,我已经制作了一个(根据评论可能过于简化)图表(可编辑)。

1
检测计数数据中的异常值
我天真地认为这是一个相当直接的问题,涉及对许多不同数量的计数数据进行异常检测。具体来说,我想确定一系列计数数据中的一个或多个值相对于分布中其余计数是否高于或低于预期。 令人困惑的因素是,我需要对3500个分布执行此操作,其中一些分布可能适合零膨胀的过度分散的Poisson,而另一些分布可能最好拟合负二项式或ZINB,而另一些分布可能呈正态分布。因此,简单的Z分数或分布图不适用于大多数数据集。这是我要检测异常值的计数数据的示例。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

3
R中的零膨胀负二项式混合效应模型
是否有提供R中零膨胀负二项式混合效应模型估计的软件包? 我的意思是: 零充气,您可以在其中为零充气指定二项式模型,例如pscl包中的功能zeroinfl: zeroinfl(y〜X | Z,dist =“ negbin”) 其中Z是零通胀模型的公式; 模型计数部分的负二项式分布; 指定的随机效果类似于软件包lme4的功能lmer。 我知道glmmADMB可以做所有的事情,除了不能指定零通货膨胀的公式(这只是一个截距,即Z仅为1)。但是还有其他软件包可以做到吗? 我将非常感谢您的帮助!

2
带有计数数据和过度分散的回归中的泊松还是拟泊松?
我有计数数据(根据可能的许多因素,对客户数量进行需求/报价分析)。我尝试使用正常错误进行线性回归,但是我的QQ图并不是很好。我尝试了答案的日志转换:再次是不良的QQ图。 所以现在,我正在尝试使用Poisson错误进行回归。使用具有所有重要变量的模型,我得到: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残余偏差大于残余自由度:我过于分散。 我怎么知道我是否需要使用准泊松?在这种情况下,拟泊松的目标是什么?我在克劳利(Crawley)的《 The R Book》中阅读了此建议,但我的观点并没有太大的改善。

1
两计数之差的意义
有没有一种方法可以确定时间1处的道路交通事故计数与时间2处的交通事故计数之间的差异是否显着不同? 我发现了不同的方法来确定不同时间的观察组之间的差异(例如比较泊松均值),而不是仅比较两个计数。还是尝试无效?任何建议或指示,将不胜感激。我很高兴跟进自己。

2
将计数数据用作自变量是否违反任何GLM假设?
我想在拟合逻辑回归模型的同时将计数数据用作协变量。我的问题是: 通过使用非负整数计数作为自变量,我是否违反了逻辑模型(更一般地说,广义线性模型)的任何假设? 我在文献中发现了很多关于将计数数据用作结果而不是协变量的参考。参见非常清晰的论文:“ NE Breslow(1996)广义线性模型:检验假设和加强结论,意大利国家生物技术大会,1995年6月,科尔托纳”,网址为 http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf。 松散地说,似乎glm假设可以表示为: 残差 链接函数必须正确表示因变量和自变量之间的关系; 没有异常值 是否每个人都知道是否存在其他建议/技术问题,可能建议使用其他类型的模型来处理计数协变量? 最后,请注意,我的数据包含的样本相对较少(&lt;100),并且计数变量的范围可以在3-4个数量级内变化(即某些变量的值在0-10范围内,而其他变量的值可以在0-10之间0-10000)。 一个简单的R示例代码如下: \########################################################### \#generating simulated data var1 &lt;- sample(0:10, 100, replace = TRUE); var2 &lt;- sample(0:1000, 100, replace = TRUE); var3 &lt;- sample(0:100000, 100, replace = TRUE); outcome &lt;- sample(0:1, 100, replace = TRUE); dataset &lt;- data.frame(outcome, var1, …

2
计数标准误
我有按罕见疾病季节划分的事件案例数据集。例如,假设春季有180例,夏季有90例,秋季有45例,冬季有210例。我正在努力将标准错误附加到这些数字上是否合适。就我们正在寻找将来可能再次发生的疾病发病率的季节性模式而言,研究目标具有推论性。因此,直观地感觉到应该有可能将不确定性的度量附加到总数上。但是,我不确定在这种情况下如何计算标准误,因为我们处理的是简单的计数而不是均值或比例。 最后,答案是否取决于数据代表病例总数(曾经发生过的每个病例)还是随机样本?如果我没记错的话,由于没有推断,通常用人口统计数据来表示标准错误是没有意义的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.