用过度分散对泊松分布建模


15

我有一个数据集,我希望它遵循泊松分布,但它的分散程度约为3倍。目前,我正在使用R中的以下代码对这种过度分散进行建模。

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

从视觉上看,这似乎非常符合我的经验数据。如果我对拟合感到满意,是否有任何理由应该做一些更复杂的事情,例如使用负二项式分布(如此处所述)?(如果是这样,那么这样做的任何指针或链接将不胜感激)。

哦,我知道这会创建一个稍微呈锯齿状的分布(由于乘以三),但这对我的应用程序来说并不重要。


更新: 为了其他人搜索和发现此问题,这里有一个简单的R函数,它使用负二项分布来建模过度分散的泊松。将d设置为所需的均值/方差比:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(通过R邮件列表:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html

Answers:


11

对于过度分散的泊松,请使用负二项式,这使您可以精确地将方差参数化为均值的函数。R中的rnbinom()等。


1
为什么是负二项式而不是具有观察级随机效应的混合模型?这不是一个反问。这是“我不知道我应该选择哪一个。” 题。另外,如果我有重复措施的情况怎么办?当数据连续时,我将使用广义线性混合模型。Gamma分布通常适用于连续的生物学数据,并且混合模型可以处理重复测量元素。但是,如果人们过度分散重复测量计数数据,该怎么办?
布赖恩

重新参数化的负二项式模型在过度分散的Poisson数据中很受欢迎的原因之一是b / c,它使用均值的函数(与泊松中相同)对方差进行建模,并使用过度分散的参数来建模“额外”方差。快速公式请参见第487页:worldscientific.com/doi/pdf/10.1142/9789813235533_0044 ,维基百科页面提供了有关重新参数化的说明:en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim

4

如果您的泊松平均值为1500,则您非常接近正态分布;您可以尝试将其用作近似值,然后分别对均值和方差建模。


那只是一个例子-它的中位数可能要小得多,约为200(取决于我对数据的分区方式)。那会排除使用正态分布,对吗?
chrisamiller

1
泊松分布的正态近似值非常健壮,如果我没记错的话,CDF之间的差异以0.75 / sqrt(lambda)之类的东西为界。我不会太担心使用lambda = 200,但是如果您更喜欢规避风险,那么绝对可以使用负二项式。
Rich
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.