Questions tagged «negative-binomial»

离散的单变量分布,对尝试成功的次数进行建模,直到发生指定次数的失败为止。 Bernoulli(p)

2
摘要.glm()中的分散
我进行了glm.nb glm1<-glm.nb(x~factor(group)) 其中group为类别,x为度量变量。当我尝试获取结果摘要时,根据是否使用summary()或,我会得到略有不同的结果summary.glm。summary(glm1)给我 ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …


1
带有偏移的Poisson随机效应模型中的超分散和建模替代方案
使用主题内实验对来自实验研究的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验,数据以及到目前为止所做的事情,然后提出了我的问题。 依次向受访者展示了四部不同的电影。在每部电影之后,我们进行了一次采访,我们对RQ感兴趣的某些语句(预测计数变量)的出现次数进行了计数。我们还记录了可​​能出现的最大次数(编码单位;偏移量变量)。另外,电影的几个特征以连续的比例进行了测量,其中一个具有因果关系,即电影特征对陈述数量的影响的因果假设,而其他则为控制(预测变量)。 到目前为止采用的建模策略如下: 估计一个随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“ log(单位)”(编码单位)。跨对象产生随机效果(特定于电影的计数嵌套在对象中)。我们发现因果假设得到了确认(因果变量的系数)。在估算中,我们在R中使用了lme4包,特别是功能glmer。 现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道可以通过使用负二项式回归并评估其色散参数是否可以改善简单泊松模型的模型拟合性来进行测试。但是,我不知道如何在随机效果的情况下这样做。 在我的情况下,我应该如何测试过度分散?我在简单的泊松/负二项式回归(无随机效应)中测试了超分散,我知道该如何拟合。该测试表明存在过度分散。但是,由于这些模型未考虑聚类,因此我认为此测试不正确。此外,我不确定偏移量在过度分散测试中的作用。 是否存在负二项式随机效应回归模型之类的东西,该如何在R中拟合呢? 您是否对我应该尝试使用数据的替代模型有任何建议,即考虑重复测量结构,计数变量和暴露(编码单位)?

1
找不到适合混合效果的计数数据的良好模型-ZINB还是其他?
我有一个关于单蜂丰度的非常小的数据集,我无法进行分析。它是计数数据,几乎所有计数都在一种处理中,而大多数零在另一种处理中。还有两个非常高的值(六个站点中的两个站点中的每个站点),因此计数分布的尾巴非常长。我正在R中工作。我使用了两个不同的软件包:lme4和glmmADMB。 泊松混合模型不适合:当不拟合随机效应时模型过于分散(glm模型),而当拟合随机效应时模型分散不充分(glmer模型)。我不明白为什么会这样。实验设计要求嵌套随机效应,因此我需要将它们包括在内。泊松对数正态误差分布不会提高拟合度。我使用glmer.nb尝试了负二项式误差分布,但无法拟合它–达到了迭代极限,即使使用glmerControl(tolPwrss = 1e-3)更改了公差。 因为很多零是由于我根本看不到蜜蜂(它们通常是微小的黑色物体)而造成的,所以我接下来尝试了零膨胀模型。ZIP不太适合。ZINB是迄今为止最好的模型拟合,但是我仍然对模型拟合不太满意。我不知道下一步该怎么做。我确实尝试了跨栏模型,但无法将截断分布拟合到非零结果–我认为是因为在控制处理中有很多零(错误消息是“ Model.frame.default(formula = s.bee〜tmt + lu +:可变长度不同(发现为“治疗”)”)。 另外,我认为我所包含的交互对我的数据做了一些奇怪的事情,因为系数很小,尽管当我比较bbmle软件包中使用AICctab的模型时包含交互的模型是最好的。 我包括一些R脚本,这些脚本几乎可以重现我的数据集。变量如下: d = Julian日期,df = Julian日期(作为因子),d.sq = df平方(蜜蜂数量增加,然后整个夏天下降),st =站点,s.bee =蜜蜂数量,tmt =处理,lu =土地利用类型,hab =周围景观中半自然栖息地的百分比,ba =边界地区的圆形田地。 非常感谢收到关于如何获得良好模型拟合的任何建议(替代误差分布,不同类型的模型等)! 谢谢。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, …

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

1
负二项分布的最大似然估计
问题如下: 从参数k = 3的负二项式分布中收集n个值的随机样本。 找到参数π的最大似然估计。 为该估计量的标准误差找到一个渐近公式。 说明如果参数k足够大,为什么负二项式分布将近似正态。此正态近似的参数是什么? 我的工作如下: 1.我觉得这是需要的,但是我不确定在这里我是否准确,或者鉴于提供的信息,我是否可以做得更好? p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πnip(xn|π)ℓ(π)=Σniln(p(xn|π))ℓ‘(π)=Σnikπ−(x−k)(1−π)p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πinp(xn|π)ℓ(π)=Σinln⁡(p(xn|π))ℓ‘(π)=Σinkπ−(x−k)(1−π)p(x) = {x-1 \choose k-1}\pi^k(1-\pi)^{x-k}\\ L(\pi) = \Pi_i^n p(x_n|\pi)\\ \ell(\pi) = \Sigma_i^n\ln(p(x_n|\pi))\\ \ell`(\pi) = \Sigma_i^n\dfrac{k}{\pi}-\dfrac{(x-k)}{(1-\pi)} 我认为以下是要求的。对于最后部分我感觉需要更换π^π^\hat{\pi}与kxkx\dfrac{k}{x} ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)−−−−−−−√se(π^)=π^2k−(1−π^)2x−−−−−−−−−−−−√ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)se(π^)=π^2k−(1−π^)2x\ell``(\hat{\pi}) = -\dfrac{k}{\hat{\pi}^2} + \dfrac{x}{(1-\hat{\pi})^2}\\ se(\hat{\pi}) = \sqrt{-\dfrac{1}{\ell``(\hat{\pi})}}\\ se(\hat{\pi}) = \sqrt{\dfrac{\hat{\pi}^2}{k} - \dfrac{(1-\hat{\pi})^2}{x}}\\ 我不确定如何证明这一点,并且仍在研究中。任何提示或有用的链接将不胜感激。我觉得这可能与负二项式分布可以看作是几何分布的集合有关,或者与二项式分布的倒数有关,但不确定如何处理。 任何帮助将不胜感激


2
标度变量作为计数数据-对不对?
在本文中(可通过PubMed Central免费获得),作者使用负二项式回归在得分为0-40的10项筛选工具上对得分进行建模。此过程假定计数数据,这里显然不是这种情况。我希望您对此方法是否可以接受发表意见,因为有时我在工作中使用相同或相似的工具。如果没有,我想知道是否有任何可接受的替代方法。以下是更多详细信息: 所使用的量表是酒精使用障碍识别测试(AUDIT),这是一项10项问卷,旨在筛查酒精使用障碍和有害/有害饮酒。乐器的得分从0到40,并且结果通常偏左。 据我了解,使用计数数据是假设所有“计数”的值彼此独立-每天上急诊室的患者,特定人群中的死亡人数等-它们彼此独立,尽管取决于基础变量。此外,我认为使用计数数据时不能有最大允许计数,尽管我认为当理论最大值与数据中观察到的最大值相比很高时,可以放宽此假设? 使用AUDIT量表时,我们没有真实的计数。我们有10个项目,最大总分40,尽管在实践中很少看到高分。这些项目的分数自然相互关联。 因此违反了使用计数数据所需的假设。但这仍然是可以接受的方法吗?违反这些假设有多严重?在某些情况下可以认为此方法更可接受?该方法是否有不涉及将scale变量减少到类别的替代方法?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
使用负二项式回归时,R等于聚类选项
我正在尝试复制同事的工作,并将分析从Stata转移到R。她使用的模型调用nbreg函数中的“ cluster”选项来聚类标准错误。 有关此选项的内容和原因的完整说明,请参见http://repec.org/usug2007/crse.pdf。 我的问题是如何在R中为负二项式回归调用相同的选项? 我们在Stata中指定了本文的主要模型,如下所示 xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) 我已经用 pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) 这显然缺少聚集错误部分。 是否可以进行精确复制?如果可以,怎么办?如果没有,有什么合理的选择? 谢谢 [编辑]正如评论中所指出的那样,我希望找到一种不会将我带入多级模型领域的解决方案。尽管我的培训使我看到了这些事情应该相关,但是这比我自己独自承担更多的飞跃。因此,我一直在挖掘并找到以下链接:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / 指向一些相当简单的代码来执行我想要的操作: library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) …

1
使用lme4 glmer和glmer.nb帮助解释计数数据GLMM-负二项式与Poisson
我对GLMM的规范和解释有一些疑问。3个问题绝对是统计学上的问题,2个是关于R的更具体的问题。我在这里发布,因为最终我认为问题是GLMM结果的解释。 我目前正在尝试安装GLMM。我使用的是美国经纬度数据库中的美国人口普查数据。我的观察是人口普查区。我的因变量是空置住房的数量,我对空置与社会经济变量之间的关系很感兴趣。这里的示例很简单,仅使用两个固定的影响:非白人人口百分比(种族)和家庭收入中位数(阶级)及其相互作用。我想包括两个嵌套的随机效应:几十年和几十年之内的片段,即(十年/片段)。我正在考虑这些随机变量,以控制空间(即区域之间)和时间(即数十年之间)的自相关。但是,我也对十年作为固定影响感兴趣,因此我也将它作为固定因素包括在内。 由于我的自变量是非负整数计数变量,因此我一直在尝试拟合泊松和负二项式GLMM。我使用的是房屋总数的对数。这意味着系数被解释为对空置率的影响,而不是对空置房屋总数的影响。 我目前有使用lme4的glmer和glmer.nb估计的泊松和负二项式GLMM的结果。根据我对数据和研究领域的了解,对系数的解释对我来说很有意义。 如果您需要数据和脚本,它们位于我的Github上。该脚本包括我在构建模型之前所做的更多描述性调查。 这是我的结果: 泊松模型 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid 34520.1 34580.6 …


1
如果存在两个未知数,负二项式是否不能像指数族那样表达?
假设色散参数是一个已知的常数,我有一个作业分配以表示负二项式分布为指数分布族。这相当简单,但是我想知道为什么他们要求我们将参数固定。我发现我无法想出一种方法来以正确的形式将两个参数未知。 在网上寻找时,我发现这是不可能的。但是,我找不到任何证明是真的。我自己也似乎无法提出。有人证明吗? 按照下面的要求,我提出了一些要求: “具有固定失败次数(也称为停止时间参数)r的负二项式分布族是指数族。但是,当允许上述任何固定参数发生变化时,所得族都不是指数族。 ” http://en.wikipedia.org/wiki/Exponential_family “二参数负二项式分布不是指数族的成员。但是,如果我们将色散参数视为已知的固定常数,则它是一个成员。” http://www.unc.edu/courses/2006spring/ecol/145/001/docs/lectures/lecture21.htm

2
为什么负二项式回归的Pearson残差比Poisson回归的残差小?
我有这些数据: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) 我进行了泊松回归 poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") 负二项式回归: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 然后我为泊松回归计算色散统计量: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 负二项式回归: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 在不使用方程式的情况下,谁能解释为什么负二项式回归的色散统计量远小于泊松回归的色散统计量?

1
总的来说,负二项式的分布是什么
如果 x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n 都是负二项式,那么分布是什么 (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) 给定 x1+x2+…+xn=Nx1+x2+…+xn=Nx_1 + x_2 + \ldots + x_n = N\quad? NNN 是固定的。 如果 x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n 然后以总泊松为条件, (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)是多项式。我不确定负二项式是否成立,因为它是泊松混合函数。 如果您想知道,这不是作业问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.