泊松分布与正态分布有何不同?


29

我生成了一个具有泊松分布的向量,如下所示:

x = rpois(1000,10)

如果我使用制作直方图hist(x),则分布看起来像是熟悉的钟形正态分布。然而,使用柯尔莫哥洛夫-斯米尔诺夫测试ks.test(x, 'pnorm',10,3)说,分布显著不同的正态分布,由于非常小的p值。

所以我的问题是:当直方图看起来与正态分布非常相似时,泊松分布与正态分布有何不同?


另外(作为David的答案的补充):阅读此书stats.stackexchange.com/a/2498/603),并将样本大小设置为100,并观察其差异。
user603 2012年

Answers:


20
  1. Poisson分布是离散的,而正态分布是连续的,并且Poisson随机变量始终> =0。因此,Kolgomorov-Smirnov检验通常能够分辨出差异。

  2. 当泊松分布的平均值较大时,它与正态分布相似。然而,rpois(1000, 10)甚至不看那个类似正态分布(它在0短停和右尾太长)。

  3. 为什么将它与ks.test(..., 'pnorm', 10, 3)而不是进行比较ks.test(..., 'pnorm', 10, sqrt(10))?3和之间的差异很小,但在比较分布时本身会有所不同。即使分布确实是正态分布,您最终也会得到一个反保守的p值分布:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

在此处输入图片说明


3
人们通常会看到模糊不清的对称,并认为它看起来“正常”。我怀疑@罗斯看到了什么。
Fraijo 2012年

2
请注意,KS测试通常假定为连续分布,因此在这种情况下依赖报告的p值可能(也)令人怀疑。
主教

1
正确:跑步hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))证明比较两个相同泊松分布的测试过于保守。
大卫·罗宾逊

@Fraijo:的确如此。关于这个主题,我们还有一个更笼统的问题:如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?
银鱼

17

这是更容易理解的方法:

您可以将二项分布视为大多数分布的“母体”。当n足够大时,正态分布只是二项式分布的近似值。实际上,亚伯拉罕·德·莫夫(Abraham de Moivre)实质上是在尝试近似二项式分布的同时发现了正态分布,因为随着n的增长,它很快就无法计算二项式分布,尤其是当您没有计算机时(参考)。

泊松分布也只是二项式分布的另一个近似值,但是当n大 p小时,或者比平均值近似等于方差时,泊松分布要好得多。np(1-p))(参考)。为什么这种特殊情况如此重要?显然,它在现实世界中浮出水面,这就是为什么我们使用这种“特殊”近似值。下面的示例说明了Poisson近似非常有效的方案。

我们有一个100,000台计算机的数据中心。今天任何给定计算机发生故障的概率为0.001。因此,平均np = 100台计算机在数据中心发生故障。今天只有50台计算机出现故障的概率是多少?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

实际上,正态分布的近似质量随着分布的尾部而下降,但泊松仍然保持很好的状态。在上面的示例中,让我们考虑今天只有5台计算机出现故障的概率是多少?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

希望这可以使您更好地直观理解这3个分布。


真是一个了不起的好答案!非常感谢。:)
Bora M. Alper

11

我认为值得一提的是,泊松()pmf是p n = λ / n的二项式(np n)的极限pmf 。λnpnpn=λ/n

此博客上可以找到一个相当漫长的发展过程。

但是,我们也可以在这里经济地证明这一点。如果然后固定ķ PX Ñ = ķ XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))nppn=λ/n0λn


(+1)欢迎光临本站。我做了一些编辑;请检查我在程序中没有引入任何错误。我不太确定最后一句话中最后一句话的含义。还有一些其他说明可能会有所帮助。
红衣主教

1
npnλpλ

1
nλpn1/2

谢谢。我明白了你现在想说的话。我通常同意以下警告,即需要谨慎对待参数之间的关系,这些参数被认为是固定的,而随其他参数而变化。:)
主教

λ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.