Questions tagged «poisson-regression»

泊松回归是众多因变量(非负整数)的回归模型之一。更为通用的模型是负二项式回归。两者都有许多变体。

2
GLM中的过度分散测试实际上是否“有用”?
每当我们使用限制响应变量方差的模型时,就会在GLM中出现“过度分散”现象,并且数据显示的方差大于模型限制所允许的方差。在使用Poisson GLM对计数数据进行建模时,通常会发生这种情况,并且可以通过众所周知的测试进行诊断。如果测试表明存在统计学上显着的过度分散迹象,那么我们通常通过使用更广泛的分布族来概括模型,该分布族将方差参数从原始模型下出现的约束中解脱出来。对于Poisson GLM,通常将其推广为负二项式或准Poisson GLM。 这种情况怀有明显的异议。为什么要从Poisson GLM开始呢?可以直接从较宽的分布形式开始,后者具有(相对)自由的方差参数,并允许方差参数适合数据,而完全忽略了过度分散测试。在其他情况下,当我们进行数据分析时,我们几乎总是使用至少允许前两个时刻自由的分布形式,那么为什么在这里例外? 我的问题:是否有充分的理由从确定方差的分布(例如泊松分布)开始,然后执行过度分散测试?与完全跳过本练习并直接转到更通用的模型(例如,负二项式,准泊松等)相比,此过程如何?换句话说,为什么不总是使用带有自由方差参数的分布呢?

1
零膨胀泊松回归
假设是独立的并且Y = (Y 1,… ,Y n )'Y=(Y1,…,Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' ÿ 我 = 0 的概率为p 我 + (1 - p 我)ë - λ 我 ÿ 我 = ķ 以概率(1 - p 我)ë - λ 我 λ达ķ 我 / ķ ! Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!\eqalign{ Y_i = 0 …

2
如何解释泊松GLM结果中的参数估计值[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 5年前关闭。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …


1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …



2
泊松回归的Log Link和Identity Link的优缺点
我执行泊松回归与比较(和采取的差)在我的模型中的两个因子水平的预测均值计数的最终目标 ,而持有其他模型协变量(这些都是二进制) 不变。我想知道是否有人可以提供有关何时使用日志链接和身份链接的实用建议。考虑到我比较差异的目标,这两个不同链接函数在Poisson回归中的利弊是什么?μ^1个- μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2 对于Logistic /二项式回归(使用Logit链接或Identity链接)以比较两个因子水平之间的比例差异,我也有相同的目标,需要类似的建议。我读过一些有关此问题的文章,但似乎没有人解释为什么或何时选择一个链接而不是另一个链接,以及优点/缺点。在此先感谢您的帮助! 更新: 我还意识到使用某些链接函数的主要目的是将可能的预测值的范围限制在平均响应范围内(例如,对于逻辑,该范围限制在0到1之间,对于对数链接,则将预测限制为正数)。因此,我想问的是,如果我使用身份链接进行逻辑/二项式回归,而我的结果在(0,1)范围内,是否真的需要使用逻辑链接功能或我可以简单地考虑使用身份链接吗?

1
泊松与拟泊松模型中估计的相同系数
在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。 如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处? 注意事项: 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。 每个Ben指导的有用SE线程: 泊松回归中偏移的基本数学 偏移量对系数的影响 使用曝光作为协变量与偏移量之间的区别

1
带有偏移的Poisson随机效应模型中的超分散和建模替代方案
使用主题内实验对来自实验研究的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验,数据以及到目前为止所做的事情,然后提出了我的问题。 依次向受访者展示了四部不同的电影。在每部电影之后,我们进行了一次采访,我们对RQ感兴趣的某些语句(预测计数变量)的出现次数进行了计数。我们还记录了可​​能出现的最大次数(编码单位;偏移量变量)。另外,电影的几个特征以连续的比例进行了测量,其中一个具有因果关系,即电影特征对陈述数量的影响的因果假设,而其他则为控制(预测变量)。 到目前为止采用的建模策略如下: 估计一个随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“ log(单位)”(编码单位)。跨对象产生随机效果(特定于电影的计数嵌套在对象中)。我们发现因果假设得到了确认(因果变量的系数)。在估算中,我们在R中使用了lme4包,特别是功能glmer。 现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道可以通过使用负二项式回归并评估其色散参数是否可以改善简单泊松模型的模型拟合性来进行测试。但是,我不知道如何在随机效果的情况下这样做。 在我的情况下,我应该如何测试过度分散?我在简单的泊松/负二项式回归(无随机效应)中测试了超分散,我知道该如何拟合。该测试表明存在过度分散。但是,由于这些模型未考虑聚类,因此我认为此测试不正确。此外,我不确定偏移量在过度分散测试中的作用。 是否存在负二项式随机效应回归模型之类的东西,该如何在R中拟合呢? 您是否对我应该尝试使用数据的替代模型有任何建议,即考虑重复测量结构,计数变量和暴露(编码单位)?

2
泊松回归假设以及如何在R中对其进行检验
我想测试哪种回归最适合我的数据。我的因变量是一个计数,并且有很多零。 而且,我需要一些帮助来确定使用哪种模型和家庭(泊松或准泊松,或零膨胀泊松回归),以及如何检验这些假设。 泊松回归:据我了解,一个强有力的假设是因变量均值=方差。您如何测试呢?他们必须有多近?是否为此使用了无条件或有条件的均值和方差?如果这个假设不成立怎么办? 我读到,如果方差大于均值,则说明我们存在过度分散,解决这一问题的潜在方法是包括更多自变量,或称family = quasipoisson。此分布是否还有其他要求或假设?我该使用哪种测试来查看(1)或(2)是否更合适-简单anova(m1,m2)? 我还读到,当出现过度分散时,可以使用负二项分布。如何在R中执行此操作?与拟泊松有什么区别? 零膨胀泊松回归:我读到使用vuong检验可以检查哪种模型更合适。 > vuong (model.poisson, model.zero.poisson) 那是对的吗?零膨胀回归有什么假设? 加州大学洛杉矶分校的学术技术服务,统计咨询集团拥有部分约zeroinflated泊松回归,并测试与标准泊松模型(二)zeroinflated模型(一): > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) 我不了解| persons第一个模型的功能,以及为什么可以比较这些模型。我曾期望回归是相同的,只是使用不同的家庭。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
哪种回归模型最适合用于计数数据?
我想稍微了解一下统计信息,但是我有些固执。我的数据如下: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 我现在想建立一个回归模型,以便能够根据数据预测任何给定年份的基因数量。直到现在,我都使用线性回归进行分析,但是我已经阅读了一些文章,对于这种数据,它似乎并不是最佳选择。我已经读过泊松回归可能有用,但是我不确定该使用什么。所以我的问题是: 是否有针对此类数据的通用回归模型?如果不是,我该怎么做才能找出最适合使用哪种方法(就我必须了解的数据而言)?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
对于广义线性模型(例如,泊松混合模型(与glmer拟合)),lsmeans报告什么?
我正在分析设计实验中的眼动数据。我的数据的简化版本如下所示(您可以在此处获取dput()数据), head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 其中参与者是每个主题的唯一标识符,fixationImage是他们固定在哪个图片类别上,而fixationCount是他们固定在该图片类别上的次数。 我使用lme4包中的 glmer()将泊松模型拟合到数据中。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) 我使用lsmeans 包中的 lsmeans()来检查因子水平之间的差异, cld(lsmeans(model,"fixationImage")) 提供以下输出: fixationImage lsmean …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.