Questions tagged «poisson-distribution»

在非负整数上定义的离散分布,其平均数等于方差。

2
计数标准误
我有按罕见疾病季节划分的事件案例数据集。例如,假设春季有180例,夏季有90例,秋季有45例,冬季有210例。我正在努力将标准错误附加到这些数字上是否合适。就我们正在寻找将来可能再次发生的疾病发病率的季节性模式而言,研究目标具有推论性。因此,直观地感觉到应该有可能将不确定性的度量附加到总数上。但是,我不确定在这种情况下如何计算标准误,因为我们处理的是简单的计数而不是均值或比例。 最后,答案是否取决于数据代表病例总数(曾经发生过的每个病例)还是随机样本?如果我没记错的话,由于没有推断,通常用人口统计数据来表示标准错误是没有意义的。

2
推导二元泊松分布
我最近遇到了双变量Poisson分布,但是对于如何导出它有点困惑。 分布由下式给出: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=X,ÿ=ÿ)=Ë-(θ1个+θ2+θ0)θ1个XX!θ2ÿÿ!∑一世=0米一世ñ(X,ÿ)(X一世)(ÿ一世)一世!(θ0θ1个θ2)一世P(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 据我所知,在θ0θ0\theta_{0}项之间的相关性的测量XXX和YÿY ; 因此,当XXX和YÿY是独立的,θ0=0θ0=0\theta_{0} = 0和分配简单地变成两个单变量泊松分布的产物。 考虑到这一点,我的困惑是基于求和项-我假设该项解释了XXX和之间的相关性YÿY。 在我看来,该加数构成某种其中“成功”的概率由下式给出二项式累积分布函数的产品(θ0θ1θ2)(θ0θ1个θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)和“失败”的概率由下式给出i!1min(x,y)−i一世!1个米一世ñ(X,ÿ)-一世i!^{\frac{1}{min(x,y)-i}},因为(i!1min(x,y)−i!)(min(x,y)−i)=i!(一世!1个米一世ñ(X,ÿ)-一世!)(米一世ñ(X,ÿ)-一世)=一世!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!,但我可能与此相去甚远。 有人可以提供一些有关如何导出这种分布的帮助吗?同样,如果可以将其包含在任何答案中,那么如何将模型扩展到多变量场景(例如三个或更多随机变量),那就太好了! (最后,我已经注意到,之前有一个类似的问题(了解二元泊松分布),但实际上并未对此推导进行探讨。)


2
泊松与逻辑回归
我有一组不同随访时间的患者。到目前为止,我无视时间方面,只需要对二进制结果-疾病/无疾病建模。我通常在这些研究中进行逻辑回归,但是我的另一个同事问泊松回归是否合适。我对泊松不是很感兴趣,对于在这种情况下进行泊松的利弊可与logistic回归进行比较尚不确定。我阅读了Poisson回归以估计二元结果的相对风险,但在这种情况下我仍不确定Poisson回归的优点。

2
通过泊松回归生成数据样本
我想知道如何从R中的泊松回归方程生成数据?我对如何解决这个问题感到困惑。 因此,如果我假设我们有两个分布为预测变量和。截距为0,两个系数都等于1。那么我的估计很简单:X1个X1X_1X2X2X_2ñ(0 ,1 )N(0,1)N(0,1) 日志(是)= 0 + 1 ⋅ X1个+ 1 ⋅ X2log⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 但是,一旦计算出log(Y),如何基于该值生成泊松计数?泊松分布的速率参数是多少? 如果有人可以编写一个简短的R脚本来生成泊松回归样本,那将太棒了!

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
如何在R中使用lmer()测试泊松GLMM中的过度分散?
我有以下模型: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...这是摘要输出。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

1
反季节化计数数据
我在R中使用stl()将计数数据分解为趋势,季节和不规则成分。结果趋势值不再是整数。我有以下问题: stl()是使计数数据反季节化的合适方法吗? 由于结果趋势不再是整数值,因此我可以使用lm()建模趋势成分吗?

3
为过度分散的计数数据选择Poisson回归的替代方法
我目前正在分析来自一系列行为实验的数据,这些实验均使用以下措施。要求此实验的参与者选择其他人可以用来帮助解决一系列10字谜的(虚拟)线索。参与者被认为这些其他人会赚钱或亏钱,这取决于他们在解决七巧板游戏中的表现。线索在帮助方面有多种。例如,对于字母NUNGRIN(运行)的字母,可能有以下三个线索: 快速行动(无益) 您在马拉松比赛中做什么(有帮助) 并非总是健康的爱好(无益) 为了衡量这一指标,我计算了参与者(为10)选择另一个对他人没有帮助的线索的次数。在实验中,我使用各种不同的操作来影响人们选择的线索的有用性。 因为有帮助/无帮助的度量存在明显的正偏斜(大部分人总是选择10条最有用的线索),并且由于该度量是计数变量,所以我一直在使用Poisson广义线性模型来分析这些数据。但是,当我对Poisson回归进行更多阅读时,我发现由于Poisson回归不能独立估计分布的均值和方差,因此它常常低估了一组数据中的方差。我开始研究泊松回归的替代方法,例如拟泊松回归或负二项式回归。但是,我承认我对这类模型还很陌生,所以我来这里寻求建议。 是否有人建议将哪种模型用于此类数据?我还有其他需要注意的考虑因素(例如,一种特定的模型比另一种模型更强大吗?)?我应该查看哪种诊断方法来确定我选择的模型是否正确处理了我的数据?

3
泊松分布的正态近似
这里在维基百科上这样说的: 对于足够大的λλλ值(例如λ>1000λ>1000λ>1000),均值λλλ和方差λλλ(标准偏差λ−−√λ\sqrt{\lambda})的正态分布是泊松分布的极佳近似值。如果λλλ大于约10,则如果执行了适当的连续性校正,则正态分布是一个很好的近似值,即P(X≤x),P(X≤x),P(X ≤ x),其中(小写)xxx是一个非负整数,被替换为P(X≤x+0.5).P(X≤x+0.5).P(X ≤ x + 0.5). FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda) 不幸的是,这没有被引用。我希望能够严谨地展示/证明这一点。当\ lambda> 1000时,您怎么能说正态分布是一个很好的近似值,您如何量化这种“优秀”的近似值,使用了哪些度量?λ>1000λ>1000\lambda > 1000 我已经与这引起了最远的是在这里了约翰谈到用浆果Esseen定理和近似误差在这两个的CDF。从我可以看到,他没有尝试任何λ≥1000λ≥1000\lambda \geq 1000。

4
在这种情况下,泊松回归与线性回归相比有什么优势?
我获得了一个数据集,其中包含一所高中学生获得的奖励数量,其中预测的奖励数量包括该学生注册的课程类型以及他们的数学期末考试成绩。 我想知道是否有人可以告诉我为什么线性回归模型在这种情况下可能不合适,以及为什么使用泊松回归会更好?谢谢。

2
如何在JAGS中设置零膨胀泊松?
我正在尝试在R和JAGS中建立零膨胀泊松模型。我是JAGS的新手,我需要一些有关该操作的指南。 我一直在尝试以下方法,其中y [i]是观察到的变量 model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } 但是,这不起作用,因为您不能在观察到的变量上使用<-。 任何想法如何更改/解决此问题?还有其他方法可以在JAGS中建立零膨胀泊松模型吗?

1
泊松分布数据的逻辑回归
从一些机器学习笔记中讨论了一些区分性分类方法,特别是逻辑回归,其中y是类标签(0或1),而x是数据,据说: 如果x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0),并且x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1),则p(y|x)p(y|x)p(y|x)将是逻辑对数。 为什么会这样呢?

3
我的Poisson GLM应该使用偏移量吗?
我正在进行研究,以研究使用两种不同的水下视觉普查方法时鱼类密度和鱼类物种丰富度的差异。我的数据最初是计数数据,但通常将其更改为鱼的密度,但我仍然决定使用Poisson GLM,我希望它是正确的。 model1 <- glm(g_den ~ method + site + depth, poisson) 我输入的3个预测变量是方法,位置和深度,它们是我作为因素排序的。 我的反应变量是石斑鱼物种丰富度,石斑鱼密度,其他鱼类也一样。我知道密度不是整数,而是数字数据,例如1.34849。我现在却收到此错误: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 我一直在阅读,很多人建议使用偏移量,这是最明智的选择吗?

1
分层Gamma-Poisson模型的超先验密度
在数据的层次模型中,其中 在实践中选择值似乎很典型(,以使伽玛分布的均值和方差与数据的均值和方差大致匹配(例如Clayton和Kaldor,1987年“疾病测绘的年龄标准化相对风险的经验贝叶斯估计”,Biometrics)。显然,这只是一个临时解决方案,因为它会夸大研究人员对参数的信心yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)即使基础数据生成过程保持不变,已实现数据的微小波动也可能对伽玛密度产生重大影响。 此外,Gelman 在贝叶斯数据分析(第二版)中写道,这种方法是“ 草率的 ”。在书和本文中(从第3232页开始),他建议以类似于大鼠肿瘤示例(从第130页开始)的方式选择一些优先级较高的密度)。p(α,β)p(α,β)p(\alpha, \beta) 尽管很明显,只要只要产生一定的后验密度就可以接受,但我还没有找到研究人员过去用于此问题的任何超高密度示例。如果有人可以指出我使用超优先密度来估计泊松-伽马模型的书籍或文章,我将不胜感激。理想情况下,我对感兴趣,它相对平坦,并且会像老鼠肿瘤示例中的数据一样占主导地位,或者对几种替代规格以及与每种规格相关的取舍进行讨论。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.