Answers:
Poisson分布是离散的,而正态分布是连续的,并且Poisson随机变量始终> =0。因此,Kolgomorov-Smirnov检验通常能够分辨出差异。
当泊松分布的平均值较大时,它与正态分布相似。然而,rpois(1000, 10)
甚至不看那个类似正态分布(它在0短停和右尾太长)。
为什么将它与ks.test(..., 'pnorm', 10, 3)
而不是进行比较ks.test(..., 'pnorm', 10, sqrt(10))
?3和之间的差异很小,但在比较分布时本身会有所不同。即使分布确实是正态分布,您最终也会得到一个反保守的p值分布:
set.seed(1)
hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
证明比较两个相同泊松分布的测试过于保守。
这是更容易理解的方法:
您可以将二项分布视为大多数分布的“母体”。当n足够大时,正态分布只是二项式分布的近似值。实际上,亚伯拉罕·德·莫夫(Abraham de Moivre)实质上是在尝试近似二项式分布的同时发现了正态分布,因为随着n的增长,它很快就无法计算二项式分布,尤其是当您没有计算机时(参考)。
泊松分布也只是二项式分布的另一个近似值,但是当n大而 p小时,或者比平均值近似等于方差时,泊松分布要好得多。np(1-p))(参考)。为什么这种特殊情况如此重要?显然,它在现实世界中浮出水面,这就是为什么我们使用这种“特殊”近似值。下面的示例说明了Poisson近似非常有效的方案。
例
我们有一个100,000台计算机的数据中心。今天任何给定计算机发生故障的概率为0.001。因此,平均np = 100台计算机在数据中心发生故障。今天只有50台计算机出现故障的概率是多少?
Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7
实际上,正态分布的近似质量随着分布的尾部而下降,但泊松仍然保持很好的状态。在上面的示例中,让我们考虑今天只有5台计算机出现故障的概率是多少?
Binomial: 2.96E-36
Poisson: 3.1E-36
Normal: 9.6E-22
希望这可以使您更好地直观理解这3个分布。