从使用泊松分布对过程进行建模转换为使用负二项分布?


24

我们有一个随机过程,该过程在设定的时间段内可能不会发生多次。我们有一个来自此过程的预先存在模型的数据馈送,该数据馈送提供了在期间内发生许多事件的概率。这个现有模型很旧,我们需要对Feed数据进行实时检查,以获取估计错误。产生数据馈送的旧模型(提供了在剩余时间发生事件的概率)近似为Poisson Distributed。T0t<Tnt

因此,为了检查异常/错误,我们让为剩余时间,为在剩余时间发生的事件总数。旧模型隐含了估计。因此,在我们的假设我们有: 为了从旧模型的输出(观测值y_ {t})中得出事件发生率\ lambda_t,我们使用状态空间方法,并将状态关系建模为: y_t = \ lambda_t + \ varepsilon_t \ quad(\ varepsilon_t \ sim N( 0,H_t))\ ,. tXttP(Xtc)XtPoisson(λt)

P(Xtc)=eλk=0cλtkk!.
λtyt
yt=λt+εt(εtN(0,Ht)).
我们使用状态空间[恒定速度衰减]模型对\ lambda_t的演化使用旧模型进行λt过滤,以获取过滤后的状态E(λt|Yt)并从如果E(λt|Yt)<yt

这种方法在处理整个时间段T内估计事件计数中的错误时效果非常好T,但是如果我们想在另一个时间段0t<σ其中σ<23T。为了解决这个问题,我们决定现在要切换为使用负二项式分布,因此我们现在假设XtNB(r,p)并具有:

P(Xtc)=prk=0c(1p)k(k+r1r1),
其中参数λ现在被rp代替p。这应该很容易实现,但是我在解释时遇到了一些困难,因此我有一些问题希望您帮助:

1.我们能否仅在负二项分布中设置p=λ?如果没有,为什么不呢?

2.假设我们可以设置p=f(λ),其中f是某个函数,我们如何正确设置r(我们是否需要使用过去的数据集来拟合r)?

3. r是否r取决于我们期望在给定过程中发生的事件数量?


提取r(和p)的估计值的附录:

我知道,如果我们实际上解决了这个问题,并且对每个过程进行了事件计数,则可以采用和的最大似然估计量。当然,最大似然估计仅适用于样本方差大于样本均值的样本,但是如果是这种情况,我们可以为独立的均匀分布的观测值为: 从中我们可以写出对数似然函数为: p N k 1k 2k N L r p = N i = 1 Pk i ; r p l r p = N i = 1 ln Γ k i + r - N irpNk1,k2,,kN

L(r,p)=i=1NP(ki;r,p),
l(r,p)=i=1Nln(Γ(ki+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
为了找到最大值,我们对和取偏导数并将它们设为零: 设置并设置我们发现: p ř[R p rpř[R p=p[R p=0p= Ñ Σ= 1 ķ
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0p=i=1Nki(Nr+i=1Nki),
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(rr+i=1NkiN)=0.
使用牛顿甚至EM不能以闭合形式求解r的方程。但是,在这种情况下并非如此。尽管我们可以使用过去的数据来获得静态的和但这对于我们的过程实际上并没有任何用处,但我们需要及时调整这些参数,就像使用Poisson所做的那样。 rp

1
为什么不将数据插入Poisson或负二项式回归模型呢?
StatsStudent

1
我不觉得它应该被使用。记住泊松是负二项式的极限情况,应该有一些方法可以像我对泊松所做的类似方法来参数化此问题。另外,这一过程同时发生在数千个不同的过程中,而且没有一个具有相同的“事件发生率”,这意味着必须对所有活动过程的每个新观测值对这些参数进行回归分析。这是不可行的。非常感谢您抽出
宝贵的

1
泊松链接到NB而言,如果您色散变量隐藏了,则和。集成时,这将提供少量的NB分布。您可以使用它来提供帮助。(Xt|λt,rt,gt)Pois(λtgt)(gt|rt)Gamma(rt,rt)E(gt)=1var(gt)=rt1gt
概率

这是一个很大的帮助,但是您可以进一步充实一下并提供一些明确的细节吗?非常感谢您的
宝贵

1
使用二项式而不是负二项式呢?那可能更容易做到。Anscombe FJ。泊松,二项式和负二项式数据的转换。Biometrika。1948; 35:246-54。
卡尔,

Answers:


1

负二项式分布与二项式概率模型非常相似。适用于以下假设(条件)良好的情况1)在相同条件下进行任何实验,直到获得固定的成功数(例如C)为止2)每个实验的结果可以分为两类之一,成功或失败3)每个实验40的成功概率P相同每个实验彼此独立。第一个条件是二项式和负二项式之间唯一的关键区分因素


0

在某些条件下,例如1),泊松分布可以是二项式的合理近似值,每次试验成功的可能性很小。P-> 0 2)np = m(say)是精细的统计学家最常用的规则是,当n等于或大于20并且p等于或小于5时,泊松是二项式的良好近似。 %

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.