统计和大数据 zero-inflation

4

在结果是计数变量的情况下，您发现哪些诊断图（也许是形式测试）对回归分析最有帮助？我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图，而没有讨论这些图“应该”是什么样。智慧和参考非常感谢。关于我为什么要问这个问题（如果相关）的背景故事是我的另一个问题。相关讨论：解释glm模型的残留诊断图？广义线性模型的假设 GLM-诊断和哪个系列

88 generalized-linear-model residuals negative-binomial zero-inflation poisson-regression

4

零膨胀模型和跨栏模型有什么区别？

我想知道所谓的零膨胀分布（模型）和所谓的零障碍分布（模型）之间是否有明显的区别？这些术语在文献中经常出现，我怀疑它们是不相同的，但是请您简单解释一下我的区别吗？

81 zero-inflation

3

示例：使用glmnet获得二进制结果的LASSO回归

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

“跨栏模式”真的是一种模式吗？还是只有两个单独的顺序模型？

考虑一个y从正常预测变量中预测计数数据的障碍模型x： set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 在这种情况下，我有69个零和31个正计数的计数数据。目前，请不要忘记，根据数据生成过程的定义，这是一个泊松过程，因为我的问题是关卡模型。假设我想通过障碍模型处理这些多余的零。从我对它们的阅读中，似乎障碍模型本身并不是实际的模型，而是依次进行两种不同的分析。首先，进行逻辑回归，以预测该值是否为正对零。第二，零截断的Poisson回归仅包含非零情况。第二步对我来说是错误的，因为它是（a）丢弃完美的数据，（b）由于许多数据为零，可能会导致电源问题，并且（c）基本上不是其自身的“模型” ，但只需依次运行两个不同的模型即可。因此，我尝试了“障碍模型”，而不是分别运行逻辑和零截断的泊松回归。他们给了我相同的答案（为简洁起见，我将输出缩写）： > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson …

25 r count-data zero-inflation

1

何时将Poisson，几何和负二项式GLM用于计数数据？

在GLM框架内（8个GLM分布中只有3个用于计数数据），我试图为自己布局适合何时使用哪种回归类型（几何，泊松，负二项式）和计数数据。我已阅读了有关负二项式和泊松分布的文章。何时将Poisson，几何和负二项式GLM用于计数数据？到目前为止，我有以下逻辑：它计数数据吗？如果是，均值和方差不相等吗？如果是，则为负二项式回归。如果否，则泊松回归。零通胀吗？如果是，则零泊松或零负二项式。问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗？据我了解，一旦您切换到ZIP，平均方差等于假设就可以放宽了，因此它再次与NB非常相似。问题2几何族适用于此？在决定是否在回归中使用几何族时，我应该问数据什么样的问题？问题3我看到人们一直在交换负二项式和泊松分布，而不是几何形状，因此我猜想何时使用它会有明显不同。如果是这样，那是什么？ PS：如果人们想评论/调整它以便进行讨论，我已经制作了一个（根据评论可能过于简化）图表（可编辑）。

21 generalized-linear-model negative-binomial count-data poisson-regression zero-inflation

4

在beta回归中处理0.1值

我在[0,1]中有一些数据，希望通过beta回归进行分析。当然，需要做一些事情来容纳0,1值。我不喜欢修改数据以适合模型。我也不认为通货膨胀为零和1是个好主意，因为我认为在这种情况下，应将0视为很小的正值（但我不想确切地说出什么值是合适的。一个合理的选择我相信应该选择.001和.999这样的较小值，并使用beta的累积距离来拟合模型，因此对于观测值y_i，对数似然度LL_i应该为 if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) 我喜欢这个模型的地方在于，如果beta回归模型有效，那么该模型也是有效的，但是它消除了对极值的敏感性。但是，这似乎是一种自然的方法，我想知道为什么我在文献中找不到任何明显的参考文献。所以我的问题是不是修改数据，而不是修改模型。修改数据会使结果产生偏差（基于原始模型有效的假设），而通过对极值进行装仓来修改模型不会使结果产生偏差。也许有一个我忽略的问题？

20 regression generalized-linear-model beta-distribution zero-inflation beta-regression

5

Beta回归比例数据，包括1和0

我正在尝试生成一个模型，该模型的响应变量的比例在0和1之间，其中包括相当多的0和1，但也有介于两者之间的许多值。我正在考虑尝试beta回归。我为R（betareg）找到的程序包只允许0到1之间的值，但不包括0或1。我在其他地方读过，从理论上讲，β分布应该能够处理0或1的值，但是我不知道如何在RI中处理此问题，因为看到有人将0.001加到零并从中取0.001，但是我不是确定这是个好主意？或者，我可以logit变换响应变量并使用线性回归。在这种情况下，我有0和1的相同问题，无法对它们进行日志转换。

19 regression mixed-model beta-distribution zero-inflation beta-regression

2

为什么beta回归不能在响应变量中正确处理0和1？

通常建议使用beta回归（即具有beta分布的GLM，通常是logit链接函数）来处理响应aka因变量，其取值介于0和1之间，例如分数，比率或概率：结果的回归（比率或分数）在0和1之间。但是，总是声称一旦响应变量至少等于0或1，就不能使用beta回归。如果是这样，则需要使用零/一膨胀的beta模型，或者对响应进行某种转换，等等。：Beta回归比例数据，包括1和0。我的问题是：β分布的哪个属性阻止β回归处理精确的0和1，为什么？我猜这是和不支持beta发行版的原因。但是对于所有形状参数和，零和一个都支持beta分布，只有较小的形状参数的分布在一侧或两侧达到无穷大。也许样本数据使得提供最佳拟合的和都将大于。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 这是否意味着在某些情况下，即使使用零/ 一，实际上也可以使用beta回归吗？当然，即使0和1支持beta分布，准确观察0或1的概率也为零。但是观察其他给定可计数值集合的可能性也是如此，所以这不是问题吗？（参见@Glen_b的评论）。 \hskip{8em} 在beta回归的上下文中，beta分布的参数设置不同，但是对于，对于所有，仍应在进行明确定义。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

17 regression generalized-linear-model beta-distribution zero-inflation beta-regression

3

R中的零膨胀负二项式混合效应模型

是否有提供R中零膨胀负二项式混合效应模型估计的软件包？我的意思是：零充气，您可以在其中为零充气指定二项式模型，例如pscl包中的功能zeroinfl： zeroinfl（y〜X | Z，dist =“ negbin”）其中Z是零通胀模型的公式；模型计数部分的负二项式分布；指定的随机效果类似于软件包lme4的功能lmer。我知道glmmADMB可以做所有的事情，除了不能指定零通货膨胀的公式（这只是一个截距，即Z仅为1）。但是还有其他软件包可以做到吗？我将非常感谢您的帮助！

17 r mixed-model count-data negative-binomial zero-inflation

1

如何为非负零膨胀连续数据建模？

我目前正在尝试将线性模型（family = gaussian）应用于不能采用低于零，零膨胀且连续的数值的生物多样性指标。值的范围是0到略大于0.25。结果，模型的残差中有一个很明显的模式，我没有设法消除它：有人对如何解决这个问题有任何想法吗？

16 regression zero-inflation tobit-regression tweedie-distribution

3

零成簇的非负数据模型（Tweedie GLM，零膨胀GLM等）是否可以预测精确的零？

当参数ppp（均值-方差关系的指数）在1到2之间。类似地，零膨胀（无论是连续的还是离散的）模型可以具有大量的零。我无法理解为什么当我使用这些模型进行预测或计算拟合值时，所有预测值都不为零。这些模型可以实际预测确切的零吗？例如 library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

3

零膨胀分布，它们实际上是什么？

我正在努力理解零膨胀分布。这些是什么？重点是什么？如果我有很多零的数据，那么我可以先进行逻辑回归拟合，然后计算出零的概率，然后再去除所有零，然后使用我选择的分布来拟合正则回归（例如，泊松）。然后有人告诉我“嘿，使用零膨胀分布”，但是查找它，似乎与我上面的建议没有什么不同？它有一个规则参数，然后有另一个参数可以模拟零概率？只是两件事同时发生了吗？μμ\muppp

15 zero-inflation

1

零膨胀泊松回归

假设是独立的并且Y = （Y 1，… ，Y n ）'Y=(Y1,…,Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' ÿ 我 = 0 的概率为p 我 + （1 - p 我）ë - λ 我 ÿ 我 = ķ 以概率（1 - p 我）ë - λ 我 λ达ķ 我 / ķ ！ Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!\eqalign{ Y_i = 0 …

14 poisson-regression zero-inflation

1

找不到适合混合效果的计数数据的良好模型-ZINB还是其他？

我有一个关于单蜂丰度的非常小的数据集，我无法进行分析。它是计数数据，几乎所有计数都在一种处理中，而大多数零在另一种处理中。还有两个非常高的值（六个站点中的两个站点中的每个站点），因此计数分布的尾巴非常长。我正在R中工作。我使用了两个不同的软件包：lme4和glmmADMB。泊松混合模型不适合：当不拟合随机效应时模型过于分散（glm模型），而当拟合随机效应时模型分散不充分（glmer模型）。我不明白为什么会这样。实验设计要求嵌套随机效应，因此我需要将它们包括在内。泊松对数正态误差分布不会提高拟合度。我使用glmer.nb尝试了负二项式误差分布，但无法拟合它–达到了迭代极限，即使使用glmerControl（tolPwrss = 1e-3）更改了公差。因为很多零是由于我根本看不到蜜蜂（它们通常是微小的黑色物体）而造成的，所以我接下来尝试了零膨胀模型。ZIP不太适合。ZINB是迄今为止最好的模型拟合，但是我仍然对模型拟合不太满意。我不知道下一步该怎么做。我确实尝试了跨栏模型，但无法将截断分布拟合到非零结果–我认为是因为在控制处理中有很多零（错误消息是“ Model.frame.default（formula = s.bee〜tmt + lu +：可变长度不同（发现为“治疗”）”）。另外，我认为我所包含的交互对我的数据做了一些奇怪的事情，因为系数很小，尽管当我比较bbmle软件包中使用AICctab的模型时包含交互的模型是最好的。我包括一些R脚本，这些脚本几乎可以重现我的数据集。变量如下： d = Julian日期，df = Julian日期（作为因子），d.sq = df平方（蜜蜂数量增加，然后整个夏天下降），st =站点，s.bee =蜜蜂数量，tmt =处理，lu =土地利用类型，hab =周围景观中半自然栖息地的百分比，ba =边界地区的圆形田地。非常感谢收到关于如何获得良好模型拟合的任何建议（替代误差分布，不同类型的模型等）！谢谢。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, …

12 count-data negative-binomial mixed-model zero-inflation lme4-nlme

2

如何在JAGS中设置零膨胀泊松？

我正在尝试在R和JAGS中建立零膨胀泊松模型。我是JAGS的新手，我需要一些有关该操作的指南。我一直在尝试以下方法，其中y [i]是观察到的变量 model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } 但是，这不起作用，因为您不能在观察到的变量上使用<-。任何想法如何更改/解决此问题？还有其他方法可以在JAGS中建立零膨胀泊松模型吗？

12 r poisson-distribution jags zero-inflation

Questions tagged «zero-inflation»