Questions tagged «poisson-distribution»

在非负整数上定义的离散分布,其平均数等于方差。

2
泊松回归如何可视化?
我想将代码缺陷与代​​码复杂性指标(如紧密度)相关联。一种常见的模型是将其视为泊松过程,其中持续时间是编码花费的时间,而密度是编码复杂度的函数。我能够进行回归并获得显着性值等。 但是,对我而言,很难直观地看到结果(对于数学上不太喜欢的同事而言,则更加困难)。如果是线性趋势等,是否有一种很好的方法来查看异常值?(感谢您链接到R包。) 例如,我可以绘图,Defects / Time ~ Complexity但是这很嘈杂,并且由于Defects离散且很小,所以很难查看趋势。我想到的一件事是,我可以将数据切成分位数,然后对每个分位数进行回归并绘制结果密度-我不确定这是否有效,尤其是因为我的数据不是正态分布的,因此在分位数上误导人们。

1
验证Poisson回归模型的成本函数
对于我收集的计数数据,我使用泊松回归来构建模型。我使用glmR中的函数来执行此操作family = "poisson"。为了评估可能的模型(我有几个预测变量),我使用了AIC。到目前为止,一切都很好。现在,我要执行交叉验证。我已经使用包中的cv.glm函数成功完成了此操作boot。从我的文档中可以cv.glm看到,例如对于二项式数据,您需要使用特定的成本函数来获得有意义的预测误差。但是,我还不知道哪种成本函数适用于family = poisson,并且广泛的Google搜索没有产生任何特定的结果。我的问题是,任何人都需要弄清楚哪种成本函数适用cv.glm于Poisson glm。

5
如果不是泊松,那么这是什么分布?
我有一个数据集,其中包含个人在7天内执行的操作数。具体操作与该问题无关。下面是该数据集的一些描述性统计: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} 这是数据的直方图: 从数据的来源来看,我认为它适合泊松分布。但是,均值≠方差,并且直方图在左侧的权重很高。另外,我goodfit在R中运行测试并得到: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

2
R中的零膨胀计数模型:真正的优势是什么?
为了分析零膨胀的鸟类计数,我想使用R包pscl应用零膨胀的计数模型。但是,查看文档中提供的主要功能之一(?zeroinfl)的示例后,我开始怀疑这些模型的真正优势是什么。根据此处给出的示例代码,我计算了标准泊松,拟泊松和负生物模型,简单的零膨胀泊松和负二项式模型以及零膨胀泊松模型和负二项式模型,其中零分量为回归变量。然后,我检查了观测数据和拟合数据的直方图。(这是复制该代码的代码。) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

2
泊松分布是否稳定,MGF是否有反演公式?
首先,我对泊松分布是否“稳定”存在疑问。非常幼稚(而且我不太确定“稳定”的分布),我使用MGF的产品算出了Poisson分布RV的线性组合的分布。看来我得到了另一个泊松,其参数等于各个RV的参数的线性组合。所以我得出结论,泊松是“稳定的”。我想念什么? 其次,MGF是否有像特征函数一样的反演公式?

1
在R中安装Poisson GLM-费率与计数有关的问题
我目前正在从事一个涉及GLM(最终是GAM)的项目,这些项目随着时间的推移会越来越多。通常,我会在SAS中执行此操作,但是我试图移至R,并遇到了一些问题。 当我适合使用以下方法对GLM进行计数时: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 我得到: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

1
零膨胀泊松分布的均值和方差
谁能用概率质量函数显示零膨胀泊松的期望值和方差 f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} 其中是通过二项式过程观察到的零值的概率,而是泊松的均值的推导?ππ\piλλ\lambda 结果为期望值,方差为。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 添加:我正在寻找一个过程。例如,您可以使用力矩生成功能吗?最终,我想看看如何做到这一点,以更好地理解零膨胀伽玛和其他。


1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
带身份链接的OLS与Poisson GLM
我的问题表明我对泊松回归和GLM总体上了解不足。以下是一些虚假数据来说明我的问题: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) 一些返回psuedo-R2的自定义函数: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)} 适合四种模型:OLS,带身份链接的高斯GLM,带日志链接的Poisson …

2
相同还是不同?贝叶斯方法
说我有以下模型: Poisson(λ)∼{λ1λ2if t<τif t≥τPoisson(λ)∼{λ1if t<τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} 我从数据中推断出下面所示的和。是否存在贝叶斯方法来判断(或量化)和是相同还是不同?λ 2 λ 1 λ 2λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 也许可以测量与不同的概率λ 2λ1λ1\lambda_1λ2λ2\lambda_2?还是使用KL散度? 例如,如何测量或至少?p (λ 2 > λ 1)p(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2>λ1)p(λ2>λ1)p(\lambda_2 \gt \lambda_1) 总的来说,一旦您获得了如下所示的后验者(假设两者的PDF值到处都是非零值),那么回答这个问题的好方法是什么? 更新资料 这个问题似乎可以通过两种方式回答: 如果我们有后验的样本,我们可以查看(或等效地 )中样本的比例。@ Cam.Davidson.Pilon提供了一个答案,可以使用此类样本解决此问题。λ 2 > …

3
两个独立泊松随机变量的加权和
通过使用维基百科,我找到了一种方法来计算由两个泊松随机变量之和得出的概率质量函数。但是,我认为我的方法是错误的。 令是两个独立的Poisson随机变量,均值和,其中和是常数,则的概率生成函数由 现在,利用泊松随机变量的概率生成函数为,我们可以写出两个独立泊松随机变量之和为 X1,X2X1,X2X_1, X_2λ1,λ2λ1,λ2\lambda_1, \lambda_2S2=a1X1+a2X2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2ģ X 我(ż)= È λ 我(ž - 1 )G ^ 小号2(Ž )GS2(z)=E(zS2)=E(za1X1+a2X2)GX1(za1)GX2(za2).GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 X_1+a_2 X_2}) G_{X_1}(z^{a_1})G_{X_2}(z^{a_2}). GXi(z)=eλi(z−1)GXi(z)=eλi(z−1)G_{X_i}(z) = \textrm{e}^{\lambda_i(z - 1)}S2G S 2(z)Pr(S2=k)= G (k )S 2(0)GS2(z)=eλ1(za1−1)eλ2(za2−1)=eλ1(za1−1)+λ2(za2−1).GS2(z)=eλ1(za1−1)eλ2(za2−1)=eλ1(za1−1)+λ2(za2−1). \begin{aligned} G_{S_2}(z) &= \textrm{e}^{\lambda_1(z^{a_1} - 1)}\textrm{e}^{\lambda_2(z^{a_2} - 1)} \\ &= \textrm{e}^{\lambda_1(z^{a_1} …


3
何时在Poisson回归中使用可靠的标准误差?
我将Poisson回归模型用于计数数据,并且想知道是否有理由不对参数估计使用健壮的标准误差?我特别担心,因为我的一些估计值没有显着性(例如,p = 0.13)不显着(例如,p = 0.13),但是具有显着性(p <0.01)。 在SAS中,可以通过使用proc genmod(例如repeated subject=patid;)中的重复语句来实现。我一直以http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm为例,引用了Cameron和Trivedi(2009)的一篇论文,以支持使用可靠的标准错误。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.