泊松分布的正态近似


12

这里在维基百科上这样说的:

对于足够大的λ值(例如λ>1000),均值λ和方差λ(标准偏差λ)的正态分布是泊松分布的极佳近似值。如果λ大于约10,则如果执行了适当的连续性校正,则正态分布是一个很好的近似值,即P(Xx),其中(小写)x是一个非负整数,被替换为P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

不幸的是,这没有被引用。我希望能够严谨地展示/证明这一点。当\ lambda> 1000时,您怎么能正态分布是一个很好的近似值,您如何量化这种“优秀”的近似值,使用了哪些度量?λ>1000

我已经与这引起了最远的是在这里了约翰谈到用浆果Esseen定理和近似误差在这两个的CDF。从我可以看到,他没有尝试任何λ1000


6
不定义“好” 就无法证明这一点。(您可以证明渐近结果,但在未定义标准的情况下无法在特定的样本量下将其声明为“良好”。)您可以通过直接的示例来演示其行为(从中人们可以看到良好的“良好”效果)是靠自己的灯光)。对于人们倾向于使用的典型标准,连续性校正在效果很好,只要您不深入尾巴即可。λ>10
Glen_b-恢复莫妮卡2014年

1
(更具体地说,如果您的标准是绝对误差,则可以在小样本数量(例如10)下在任何地方实现“良好”效果,但大多数人都在乎接近相对误差的东西)
Glen_b -Reinstate Monica 2014年

Answers:


7

假设是具有参数泊松,而是具有均值和方差法线。在我看来,和之间是适当的比较。在这里为简单起见,我写,也就是说,当对应于平均值的标准偏差时,我们感兴趣。XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

所以我被骗了。我使用了Mathematica。因此和都渐近于 为。但它们的区别是渐近于 如果将其绘制为的函数,您将获得与http://www.johndcook.com/blog/normal_approx_to_poisson/中倒数第二个曲线相同的曲线。Pr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

这是我使用的命令:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

另外,通过一些实验,在我看来,对的更好渐近近似为。那么错误是 ,其大小约为倍。Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b是正确的,因为“合适”是一个非常主观的概念。但是,如果要验证泊松分布合理合理,则可以使用假设假设为的假设Kolmorgov-Smirnov检验 CDF来自分布,假设您的样本将来自泊松()。由于您实际上不是在测试样本,而是在一个分布与另一个样本之间进行测试,因此您需要仔细考虑您为该假设检验假设的样本大小和显着性水平(因为我们没有以典型方式使用KS检验)。那是:H0:N(λ,λ)λ

  • 选择一个有代表性的假设样本量n,并将测试的显着性水平调整为典型值,例如5%。

现在,假设您的数据实际上来自泊松(),请计算此测试的II型错误率。在某种意义上,您所选择的KS正态性检验平均会接受%的时间来满足您特定泊松分布大小为n的样本,因此您与正态分布的拟合度将为II型错误率显着性水平。λβ

无论如何,那只是获得“合身性”感觉的一种方法。但是,所有这些都依赖于您必须自己定义的一些主观“善”概念。


2

从二项式分布推导可能会为您提供一些见识。

我们有一个二项式随机变量;

p(x)=(nx)px(1p)nx

可以选择递归计算。

p(x)=(nx+1)px(1p)p(x1)

如果保持初始状态;

p(0)=(1p)n

现在让我们假设大而小,但是的平均成功率是恒定的。然后我们可以执行以下操作;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

我们使用。p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

我们切换一些变量并进行评估;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

从微积分中我们知道。我们也知道因为顶部和底部都是阶的多项式。limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

得出结论,为:n

P(X=i)eλλii!

然后,您可以通过定义验证和。我们知道只要校正连续性,在De Moivre-Laplace定理的条件下二项式分布就近似于正态,这就是为什么被代替的原因。E(X)=λVar(X)=λP(Xx)P(Xx+0.5)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.