Questions tagged «overdispersion»

过度分散是指变异性大于数据中应有的变异性。例如,计数的方差通常大于平均值,而泊松的方差应等于平均值​​。

4
是否有测试来确定GLM过度分散是否显着?
我正在R中创建Poisson GLM。要检查是否存在过度分散,我正在研究剩余偏差与所提供的自由度的比率summary(model.name)。 是否有一个临界值或检验此比率被认为是“重要的”?我知道如果> 1,那么数据就会分散,但是如果我的比率相对接近1(例如,一个比率为1.7(残差= 25.48,df = 15),另一个比率为1.3(rd = 324,df) = 253)],我还是应该切换到拟泊松/负二项式?我在这里发现此测试的意义:1-pchisq(residual deviance,df),但是我只看过一次,这让我感到紧张。我还读到(找不到源),比率<1.5通常是安全的。意见?

4
我如何适合用于过度分散泊松结果的多级模型?
我想使用R来拟合具有Poisson分布(过度分散)的多级GLMM。此刻,我正在使用lme4,但是我注意到最近该quasipoisson家族被删除了。 我在其他地方看到过,您可以通过为每个观测值添加一个随机截距来为二项式分布建模加法过度弥散。这也适用于泊松分布吗? 有更好的方法吗?您还有其他推荐的软件包吗?

2
什么是准二项式分布(在GLM中)?
我希望有人能够提供关于准二项式分布及其作用的直观概述。我对这些要点特别感兴趣: 准二项式与二项式分布有何不同。 当响应变量是一个比例(示例值包括0.23、0.11、0.78、0.98)时,准二项式模型将在R中运行,而二项式模型则不会。 当TRUE / FALSE响应变量过度分散时,为什么要使用准二项式模型。

4
确定计数数据合适模型的策略
决定对计数数据使用哪种模型的合适策略是什么?我已经计算了需要建模为多级模型的数据,并建议我(在此站点上)做到这一点的最佳方法是通过错误或MCMCglmm。但是,我仍在尝试了解贝叶斯统计,并且我认为我应该首先尝试将我的数据拟合为广义线性模型,而忽略数据的嵌套结构(只是这样我才能对预期的结果有一个模糊的想法)。 大约70%的数据为0,方差与平均值的比率为33。因此,数据过于分散。 在尝试了许多不同的选择(包括泊松,负二项式,拟和零膨胀模型)之后,我发现结果的一致性非常差(从所有重要变量变为没有重要变量)。 我该如何基于0通货膨胀和过度分散做出明智的决定,以选择哪种类型的模型?例如,我怎么能推断准泊松比负二项式更合适(反之亦然),又怎会知道使用其中一个已经充分(或没有)处理了多余的零?同样,如果使用零膨胀模型,我如何评估不再有过度分散?还是应该在零膨胀的泊松和零膨胀的负二项式之间做出选择?


2
带有计数数据和过度分散的回归中的泊松还是拟泊松?
我有计数数据(根据可能的许多因素,对客户数量进行需求/报价分析)。我尝试使用正常错误进行线性回归,但是我的QQ图并不是很好。我尝试了答案的日志转换:再次是不良的QQ图。 所以现在,我正在尝试使用Poisson错误进行回归。使用具有所有重要变量的模型,我得到: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残余偏差大于残余自由度:我过于分散。 我怎么知道我是否需要使用准泊松?在这种情况下,拟泊松的目标是什么?我在克劳利(Crawley)的《 The R Book》中阅读了此建议,但我的观点并没有太大的改善。

2
GLM中的过度分散测试实际上是否“有用”?
每当我们使用限制响应变量方差的模型时,就会在GLM中出现“过度分散”现象,并且数据显示的方差大于模型限制所允许的方差。在使用Poisson GLM对计数数据进行建模时,通常会发生这种情况,并且可以通过众所周知的测试进行诊断。如果测试表明存在统计学上显着的过度分散迹象,那么我们通常通过使用更广泛的分布族来概括模型,该分布族将方差参数从原始模型下出现的约束中解脱出来。对于Poisson GLM,通常将其推广为负二项式或准Poisson GLM。 这种情况怀有明显的异议。为什么要从Poisson GLM开始呢?可以直接从较宽的分布形式开始,后者具有(相对)自由的方差参数,并允许方差参数适合数据,而完全忽略了过度分散测试。在其他情况下,当我们进行数据分析时,我们几乎总是使用至少允许前两个时刻自由的分布形式,那么为什么在这里例外? 我的问题:是否有充分的理由从确定方差的分布(例如泊松分布)开始,然后执行过度分散测试?与完全跳过本练习并直接转到更通用的模型(例如,负二项式,准泊松等)相比,此过程如何?换句话说,为什么不总是使用带有自由方差参数的分布呢?

2
用过度分散对泊松分布建模
我有一个数据集,我希望它遵循泊松分布,但它的分散程度约为3倍。目前,我正在使用R中的以下代码对这种过度分散进行建模。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 从视觉上看,这似乎非常符合我的经验数据。如果我对拟合感到满意,是否有任何理由应该做一些更复杂的事情,例如使用负二项式分布(如此处所述)?(如果是这样,那么这样做的任何指针或链接将不胜感激)。 哦,我知道这会创建一个稍微呈锯齿状的分布(由于乘以三),但这对我的应用程序来说并不重要。 更新: 为了其他人搜索和发现此问题,这里有一个简单的R函数,它使用负二项分布来建模过度分散的泊松。将d设置为所需的均值/方差比: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (通过R邮件列表:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)

2
逻辑回归中的过度分散
我正在尝试处理逻辑回归中过度分散的概念。我已经读到过度分散是指观察到的响应变量方差大于二项式分布的预期值。 但是,如果一个二项式变量只能具有两个值(1/0),那么它如何具有均值和方差? 我可以通过x次数的Bernoulli试验来计算成功的均值和方差。但是我无法将只能具有两个值的变量的均值和方差的概念笼罩在脑海中。 任何人都可以提供以下内容的直观概述: 只能有两个值的变量的均值和方差的概念 只能有两个值的变量中的超分散概念


1
泊松与拟泊松模型中估计的相同系数
在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。 如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处? 注意事项: 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。 每个Ben指导的有用SE线程: 泊松回归中偏移的基本数学 偏移量对系数的影响 使用曝光作为协变量与偏移量之间的区别

1
带有偏移的Poisson随机效应模型中的超分散和建模替代方案
使用主题内实验对来自实验研究的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验,数据以及到目前为止所做的事情,然后提出了我的问题。 依次向受访者展示了四部不同的电影。在每部电影之后,我们进行了一次采访,我们对RQ感兴趣的某些语句(预测计数变量)的出现次数进行了计数。我们还记录了可​​能出现的最大次数(编码单位;偏移量变量)。另外,电影的几个特征以连续的比例进行了测量,其中一个具有因果关系,即电影特征对陈述数量的影响的因果假设,而其他则为控制(预测变量)。 到目前为止采用的建模策略如下: 估计一个随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“ log(单位)”(编码单位)。跨对象产生随机效果(特定于电影的计数嵌套在对象中)。我们发现因果假设得到了确认(因果变量的系数)。在估算中,我们在R中使用了lme4包,特别是功能glmer。 现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道可以通过使用负二项式回归并评估其色散参数是否可以改善简单泊松模型的模型拟合性来进行测试。但是,我不知道如何在随机效果的情况下这样做。 在我的情况下,我应该如何测试过度分散?我在简单的泊松/负二项式回归(无随机效应)中测试了超分散,我知道该如何拟合。该测试表明存在过度分散。但是,由于这些模型未考虑聚类,因此我认为此测试不正确。此外,我不确定偏移量在过度分散测试中的作用。 是否存在负二项式随机效应回归模型之类的东西,该如何在R中拟合呢? 您是否对我应该尝试使用数据的替代模型有任何建议,即考虑重复测量结构,计数变量和暴露(编码单位)?

2
如何在R中使用lmer()测试泊松GLMM中的过度分散?
我有以下模型: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...这是摘要输出。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

2
计数数据方差的参数化建模
我正在为某些数据建模,但是我不确定我可以使用哪种类型的模型。我有计数数据,我想要一个模型,该模型将给出数据均值和方差的参数估计。也就是说,我有各种预测因素,我想确定是否有任何因素会影响方差(而不仅仅是组均值)。 我知道泊松回归将不起作用,因为方差等于均值。这个假设对我而言无效,因此我知道存在过度分散的情况。但是,负二项式模型只会生成一个过分散参数,而不会作为模型中预测变量的函数。什么模型可以做到这一点? 另外,将赞赏对讨论模型的书或论文的参考和/或实现模型的R包。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.