如果不是泊松,那么这是什么分布?


11

我有一个数据集,其中包含个人在7天内执行的操作数。具体操作与该问题无关。下面是该数据集的一些描述性统计:

Range0772Mean18.2Variance2791Number of observations696

这是数据的直方图: 动作直方图

从数据的来源来看,我认为它适合泊松分布。但是,均值≠方差,并且直方图在左侧的权重很高。另外,我goodfit在R中运行测试并得到:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

最大似然法也得出p值=0。假设零假设为:数据与泊松分布相匹配(文档未指定此goodfit假设),则测试表明我们应拒绝零假设,因此数据不会匹配泊松分布。

这种分析正确吗?如果是这样,您认为该数据适合什么分布?

χ2


您是否已经尝试过负二项式?这有帮助吗?
Ric

@Richard,我尝试了负二项式,但是不合适。谢谢你的建议。由于我无法弄清楚这是哪种分布,因此我决定忽略该分布,并进行了非参数检验,即Mann-Whitney U检验。
Dcook

mean/variance=1pp

我认为伯努利审判的概念不适用于我的案件。没有成功或失败的概念。受试者要么执行感兴趣的动作,要么不执行。他们不会尝试失败。因此,成功概率的想法没有意义。除非审判是一个时间单位。但是,没有什么可以阻止对象在该时间段内执行多项操作的。
Dcook

lmabda

Answers:


8

如果方差大于平均值,则称为过度分散。一个自然的模型就是负二项分布。这也可以看作是泊松分布,其中参数lambda遵循Gamma分布。第一步很简单,就是拟合负二项式分布。


5

如果原始计数数据看起来不像泊松分布,那么您就缺少了一些东西。也许动作的数量取决于温度,所以在炎热的日子里,人们做的事情更少。然后,在您的学习期间,温度变化会影响分布并使其非泊松。

但是,每天的动作次数仍然可以是泊松,其平均值取决于温度。如果您每天都有温度,则可以执行GLM,根据温度将操作数作为Poisson变量进行回归。如果很合适,请完成工作。

如果您没有可能的解释变量,那么您只能说“正在发生其他事情-动作数量并非来自独立的Poisson样本”-即拒绝您的原假设。

有一些无分布的测试可以通过使用排名等比较成对的观察结果。通常,它们会进行大量排列并计算测试统计信息。


4

还有一件事:您还应该调查计数数据中的异常值。您只需要400欧元就可以了,到800欧元就没有了。任何通用模型都不太适合。


1

您似乎正在计算零事件的数目-如果是这样,则可以考虑使用ZIP模型(或跨栏模型)-有关概述,请参阅Zeileis等人的R中计数数据回归模型

概括地说,这些方法分别将零计数与其余计数建模,这可能对您的情况有用。

请参阅pscl包装以及zeroinfl()hurdle()功能。


1

我怀疑您的直方图具有欺骗性。如果您有300多个观察值均匀地分布在0-50范围内,约320 个观察值均匀地分布在50-100范围内,并且50个或100个以上分布在100之上,则您的平均值应该大大大于18.2。

如果0-50范围内的数据分布不均,而是集中在零附近,那么在50-100范围内看到的数据比在0-50范围内看到的更多。

也许您是混合发行的。我怀疑如果没有实际的696观察,尤其是在不了解更多上下文的情况下,任何人都可以做很多事情。696个观测值中的每个观测值是否都是一个个体,响应是每个个体所采取的操作数吗?如果是这样,数据中是否存在不同类型的个人?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.