了解负二项分布内的参数


37

我试图适应我的数据转换成各种模型,并计算出了fitdistr从库函数MASSR给了我Negative Binomial作为最合适的。现在,在Wiki页面上,定义为:

NegBin(r,p)分布描述了k + r Bernoulli(p)试验中k次失败和r次成功的概率,最后一次试验成功。

使用R执行模型拟合给我两个参数meandispersion parameter。我不理解如何解释这些内容,因为我无法在Wiki页面上看到这些参数。我只能看到以下公式:

负二项分布公式

k观察的数目在哪里r=0...n?现在如何将它们与给定的参数相关联R?帮助文件也没有提供太多信息。

另外,只说几句关于我的实验的信息:在进行的一项社交实验中,我试图计算每个用户在10天内接触的人数。该实验的人口规模为100。

现在,如果模型适合负二项式,我可以盲目地说它遵循该分布,但我真的想了解其背后的直观含义。说我的测试对象联系的人数遵循负二项式分布是什么意思?有人可以帮忙澄清一下吗?

Answers:


42

您应该进一步浏览NB上的Wikipedia文章,其中说“伽马-泊松混合”。虽然您引用了该定义(我称其为“硬币翻转”定义,因为我通常在类中将其定义为“假设您想翻转硬币直到获得k头”)更容易得出,并且在介绍性概率或数学统计学的上下文中更有意义,根据我的经验,伽马-泊松混合是一种更为普遍的考虑应用上下文中分布的有用方法。(尤其是,在这种情况下,您的分散参数描述了假设的Gamma分布的分布,该分布是数据的基础,并描述了个体在其内在接触水平上的未观察到的变化。这是Gamma的形状参数,因此知道形状参数的Gamma分布的变化系数为可能有助于对此进行思考:θ1/θθ变大,潜在的变异性消失,分布接近泊松。


7
嗯。我不知道为什么要投票?
Ben Bolker

现在,该Wiki页面中的替代公式(en.wikipedia.org/wiki/…)一节中也描述了NB(平均,分散)公式。
mt1022 '18

10

正如我在较早给您的帖子中提到的那样,我正在努力使自己适合分布也可以对数据进行计数。这是我学到的东西:

当方差大于平均值时,过度分散是明显的,因此负二项式分布可能是适当的。如果方差和均值相同,则建议使用泊松分布;当方差小于均值时,建议使用二项式分布。

使用您正在处理的计数数据,您正在使用R中负二项式函数的“生态”参数化。以下免费提供的本书的4.5.1.3节(第165页)对此进行了具体说明(在上下文中)的R,也不少!),我希望可以解决您的一些问题:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

如果得出结论您的数据被零截断(即,观测值0的概率为0),那么您可能想检查一下R VGAM软件包中 NBD的零截断风味。

这是其应用示例:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

我希望这是有帮助的。


书中的第165页。
SmallChess 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.