Questions tagged «poisson-distribution»

在非负整数上定义的离散分布,其平均数等于方差。

2
长尾中泊松累积分布的简单近似?
我想决定容量一个表中的,以便它具有的残留可能性小于2 - p溢出对于给定的p ∈ [ 40 ... 120 ],假设条目的数量服从泊松法与给定的预期ë ∈ [ 10 3 … 10 12 ]。CCC2- p2−p2^{-p}p ∈ [ 40 ... 120 ]p∈[40…120]p\in[40\dots 120]Ë∈ [ 103… 1012]E∈[103…1012]E\in[10^3\dots 10^{12}] 理想情况下,我想最低的整数C,使得1-CDF[PoissonDistribution[E],C] < 2^-p对于给定的p和E; 但我对其中的一些内容感到满意C。数学是人工计算罚款,但是我想计算C的p,并E在编译时,这限制了我的64位整数运算。 更新:在Mathematica(版本7)e = 1000; p = 40; c = Quantile[PoissonDistribution[e], 1 - 2^-p]中1231,似乎是正确的(感谢@Procrastinator);但是,p = 50和的结果p = 60都是1250,这在不安全的方面是错误的(而且很重要:我的实验重复次,每次25次或更多,并且我希望总的失败几率小于2 − …

1
您如何使用EM算法为零膨胀泊松模型的潜在变量公式计算MLE?
通过 为样本定义零膨胀的Poisson回归模型 ,并进一步假设参数和满足(y1,…,yn)(y1,…,yn)(y_1,\ldots,y_n)ÿ一世= { 0ķ概率为p 一世+ (1 − p一世)e- λ一世概率(1 − p 一世)e- λ一世λķ一世/ k!Yi={0with probability pi+(1−pi)e−λikwith probability (1−pi)e−λiλik/k! Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! \end{cases}λ =( λ1个,… ,λñ)λ=(λ1,…,λn)\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)p =( p1个,… ,pñ)p=(p1,…,pn)\textbf{p} = (p_1, \dots, p_n) …


2
在预测冰球运动员的职业生涯总目标时是否在Poisson回归中使用偏移
我有一个关于不愿使用补偿的问题。假设一个非常简单的模型,您要在其中描述曲棍球的(全部)目标数。因此,您有目标,打的游戏次数和虚拟变量“ strike”(如果玩家是前锋,则等于1,否则等于0)。那么正确指定了以下哪个模型? 目标=游戏+前锋,或 目标=偏移量(游戏)+前锋 同样,目标是整体目标,游戏数量是单个玩家的整体游戏。例如,可能有一个玩家在100场比赛中有50个进球,而另一个在50场比赛中有20个进球的玩家,依此类推。 我想估算目标数时应该怎么做?是否真的需要在此处使用偏移量? 参考文献: 参见前面的问题,讨论一般在Poisson回归中何时使用偏移量。

1
使用lme4 glmer和glmer.nb帮助解释计数数据GLMM-负二项式与Poisson
我对GLMM的规范和解释有一些疑问。3个问题绝对是统计学上的问题,2个是关于R的更具体的问题。我在这里发布,因为最终我认为问题是GLMM结果的解释。 我目前正在尝试安装GLMM。我使用的是美国经纬度数据库中的美国人口普查数据。我的观察是人口普查区。我的因变量是空置住房的数量,我对空置与社会经济变量之间的关系很感兴趣。这里的示例很简单,仅使用两个固定的影响:非白人人口百分比(种族)和家庭收入中位数(阶级)及其相互作用。我想包括两个嵌套的随机效应:几十年和几十年之内的片段,即(十年/片段)。我正在考虑这些随机变量,以控制空间(即区域之间)和时间(即数十年之间)的自相关。但是,我也对十年作为固定影响感兴趣,因此我也将它作为固定因素包括在内。 由于我的自变量是非负整数计数变量,因此我一直在尝试拟合泊松和负二项式GLMM。我使用的是房屋总数的对数。这意味着系数被解释为对空置率的影响,而不是对空置房屋总数的影响。 我目前有使用lme4的glmer和glmer.nb估计的泊松和负二项式GLMM的结果。根据我对数据和研究领域的了解,对系数的解释对我来说很有意义。 如果您需要数据和脚本,它们位于我的Github上。该脚本包括我在构建模型之前所做的更多描述性调查。 这是我的结果: 泊松模型 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid 34520.1 34580.6 …


1
独立泊松过程超越另一个泊松过程的可能性
我之前已经在其他stackexchanges上以其他方式问过这个问题,因此对您的重新发布感到抱歉。 我问过我的教授和几个博士生,但没有确切的答案。我将首先陈述问题,然后陈述我的潜在解决方案以及我的解决方案所存在的问题,对不起。 问题: 假设两个独立的Poisson进程MMM和,和的间隔相同,但受。在任何时间点,随着时间趋于无穷大,流程的合计输出大于流程加的合计输出即的概率是多少。为了举例说明,假设有两个桥和,平均和汽车在桥和RRRλRλR\lambda_RλMλM \lambda_MλR>λMλR>λM\lambda_R>\lambda_MMMMRRRDDDP(M>R+D)P(M>R+D)P(M>R+D)RRRMMMλRλR\lambda_RλMλM\lambda_MRRRλ ř > λ 中号 d - [R 中号řMMM每个时间间隔和。辆汽车已经驶过桥,那么在任何时间点上总共有超过辆汽车驶过桥的概率是多少。λR>λMλR>λM\lambda_R>\lambda_MDDDRRRMMMRRR 解决这个问题的方法: 首先,我们定义两个泊松过程: M(I)∼Poisson(μM⋅I)R(I)∼Poisson(μR⋅I)M(I)∼Poisson⁡(μM⋅I)R(I)∼Poisson⁡(μR⋅I)M(I) \sim \operatorname{Poisson}(\mu_M\cdot I ) \\ R(I) \sim \operatorname{Poisson}(\mu_R\cdot I ) \\ 下一步是在给定数量的间隔之后找到描述的函数。这将在发生的情况下的条件上的输出,对于所有非负值。为了说明,如果总产是然后总产必须大于。如下所示。P(M>R+D)P(M>R+D)P(M>R+D)IIIM(I)>k+DM(I)>k+DM(I)>k+DR(I)=kR(I)=kR(I)=kkkkRRRXXXMMMX+DX+DX+D P(M(I))>R(I)+D)=∑k=0n[P(M(I)>k+D∪R(I)=k)]P(M(I))>R(I)+D)=∑k=0n[P(M(I)>k+D∪R(I)=k)]P(M(I))>R(I)+D)=\sum_{k=0}^n \bigg [P(M(I) >k+D\cup R(I)=k) \bigg] n→∞n→∞n\rightarrow \infty 由于独立性,可以将其重写为两个元素的乘积,其中第一个元素是Poisson分布的1-CDF,第二个元素是Poisson pmf: P(M(I)>R(I)+D)=∑k=0n[P(M(I)>k+D)1−Poisson CDF⋅P(R(I)=k)Poisson pmf]P(M(I)>R(I)+D)=∑k=0n[P(M(I)>k+D)⏟1−Poisson CDF⋅P(R(I)=k)⏟Poisson pmf]P(M(I)>R(I)+D)=\sum_{k=0}^n \bigg [\underbrace{P(M(I)> k+D)}_{1-\text{Poisson CDF}}\cdot \underbrace{P(R(I)=k)}_\text{Poisson pmf} \bigg] …

2
泊松参数的无偏估计
每天的事故数量是带有参数的泊松随机变量,在随机选择的10天中,观察到的事故数量为1,0,1,1,2,0,2,0,0,1,将是的无偏估计è λ?λλ\lambdaËλeλe^{\lambda} 我想用这种方式来尝试:我们知道,,但Ë (ē ˉ X)≠ ê λ。那么,所需的无偏估计量是多少?Ë(x¯)= λ = 0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8Ë(eX¯)≠ e λE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

5
两个参数的泊松假设检验
因此,为了好玩,我从工作所在的呼叫中心获取一些呼叫数据,并尝试对它们进行假设检验,特别是一周内收到的呼叫数量,并使用泊松分布进行拟合。由于我工作的主题,星期有两种类型,让我们称其为我假设有更多呼叫的工作周中的一种,而假设为更少的非工作周称为一种。 我有一种理论认为,每周的(称为)大于非一周的(称为)λλ\lambdaλ1λ1\lambda_1λ2λ2\lambda_2 所以我要检验的假设是H0:λ1个> λ2,小时1个:λ1个≤ λ2H0:λ1个>λ2,H1个:λ1个≤λ2H_0: \lambda_1 > \lambda_2, H_1: \lambda_1 \leq \lambda_2 我知道如何测试一个参数(例如 ),但不确定如何在给定数据集的情况下进行2个操作。假设我从每个星期和以及每个星期和的每个中获取两周的数据。有人可以帮助我浏览这个更简单的版本,以便将其应用于更大的数据集吗?任何帮助表示赞赏,谢谢。H0:λ1个> 1 ,ħ1个:λ1个≤ 1H0:λ1个>1个,H1个:λ1个≤1个H_0: \lambda_1 > 1, H_1: \lambda_1 \leq 1 X1个= 2X1个=2X_1 = 2X2= 3X2=3X_2 = 3ÿ1个= 2ÿ1个=2Y_1 = 2ÿ2= 6ÿ2=6Y_2=6

1
glmnet如何处理过度分散?
我有一个关于如何对计数数据进行文本建模的问题,尤其是如何使用该lasso技术来减少特征。 假设我有N篇在线文章以及每篇文章的综合浏览量。我为每篇文章提取了1克和2克,我想对1,2克进行回归。由于特征(1,2克)比观察的数量更多,所以套索将是减少特征数量的好方法。另外,我发现glmnet运行套索分析非常方便。 然而,网页浏览量计数的overdispersed(方差>的意思),但glmnet不提供quasipoisson(明确的),或者negative binomial,但poisson对数的数据。我想到的解决方案是对log transform计数数据(社会科学家中常用的方法)进行计数,并使响应变量大致遵循正态分布。因此,我可以使用高斯族对数据进行建模glmnet。 所以我的问题是:这样做合适吗?或者,应我只是用泊松的glmnet情况下glmnet手柄quasipoisson?还是有其他R软件包可以处理这种情况? 非常感谢你!

2
分布\ CLT中的收敛
鉴于 N=nN=nN = n,条件限制区。的YYY 是 χ2(2n)χ2(2n)\chi ^2(2n)。 NNN有边际收益。泊松(θθ\theta), θθ\theta 是一个正常数。 证明为 θ→∞θ→∞\theta \rightarrow \infty, (Y−E(Y))/Var(Y)−−−−−−√→N(0,1) (Y−E(Y))/Var⁡(Y)→N(0,1)\space \space (Y - E(Y))/ \sqrt{\operatorname{Var}(Y)} \rightarrow N(0,1) 在分配。 谁能提出解决这个问题的策略。似乎我们需要使用CLT(中心极限定理),但是要获取任何信息似乎很难YYY在其自己的。是否可以引入rv来取样,生成YYY? 这是家庭作业这样的提示理解。

2
找到估计值的方差以求泊松分布的最大似然
如果是参数为 iid泊松分布,则我得出最大似然估计值为用于数据。因此,我们可以定义相应的估计量 我的问题是,您将如何计算此估计量的方差?ķ1个,… ,ķñK1,…,KnK_1, \dots, K_nββ\betaβ^(ķ1个,… ,ķñ)=1个ñ∑我= 1ñķ一世β^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_iķ1个,… ,ķñk1,…,knk_1, \dots, k_nŤ=1个ñ∑我= 1ñķ一世。T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . 特别是,当每个遵循参数的泊松分布时,根据泊松的属性,我知道分布将遵循参数的泊松分布,但是是的分布?ķ一世KiK_iββ\beta∑ni=1Ki∑i=1nKi\sum_{i=1}^n K_inβnβn \betaTTT


1
总的来说,负二项式的分布是什么
如果 x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n 都是负二项式,那么分布是什么 (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) 给定 x1+x2+…+xn=Nx1+x2+…+xn=Nx_1 + x_2 + \ldots + x_n = N\quad? NNN 是固定的。 如果 x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n 然后以总泊松为条件, (x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n)是多项式。我不确定负二项式是否成立,因为它是泊松混合函数。 如果您想知道,这不是作业问题。

3
比较发生率
我想比较两组之间的发生率(一组没有疾病,一组有疾病)。 我打算计算发病率比率(IRR),即发病率组B /发病率组A,然后测试该比率是否等于1,最后计算IRR的95%CI间隔。 我在书中找到了一种计算95%CI的方法(Rosner's Fundamentals of Biostatistics): exp[log(IRR)±1.96(1/a1)+(1/a2)−−−−−−−−−−−−√]exp⁡[log⁡(IRR)±1.96(1/a1)+(1/a2)]\exp\left[\log(\text{IRR}) \pm 1.96\sqrt{(1/a_1)+(1/a_2)}\right] 其中,和是事件数。但是,这种近似值仅适用于足够大的样本量,我认为事件的数量很小(也许对于总体比较来说还可以)。a1a1a_1a2a2a_2 所以我认为我应该使用另一种方法。 我使用R和extraci包,发现可以使用poisson.test()。但是此函数有3种方法来定义两个侧面的p值:中心,minlike和blaker。 所以我的问题是: 使用比较泊松率的检验比较两个发生率比率im是否正确? 在使用来自确切代码包的R中的poisson.test函数时,哪种方法最好? 该小品的exactci说: 中心:是上面由1限定的单侧p值的最小值的2倍。名称“中心”是由相关的反转条件间隔(即中心间隔)引起的,即,它们保证真实参数小于小于(大于)100(1-)%置信区间的下(上)尾的概率。这被Hirji(2006)称为TST(较小尾法的两倍)。α/2α/2\alpha/2αα\alpha minlike:是可能性小于或等于观察到的可能性的结果概率之和。这被Hirji(2006)称为PB(基于概率)方法。 blaker:将观察到的较小尾巴的概率与相对尾巴的最小概率(不超过观察到的尾巴概率)相结合。Blaker(2000)提出了“ blaker”这个名字,该名字全面研究了有关置信区间的相关方法。这被Hirji(2006)称为CT(组合尾巴)方法。 我的数据是: Group A: Age group 1: 3 cases in 10459 person yrs. Incidence rate: 0.29 Age group 2: 7 cases in 2279 person yrs. Incidence rate: 3.07 Age group …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.