直观地理解为什么泊松分布是二项式分布的极限情况


14

在DS Sivia的“数据分析”中,从二项式分布推导了泊松分布。

他们认为,当M,泊松分布是二项式分布的极限情况,其中M是试验次数。

问题1:如何直观地理解该论点?

问题2:为什么large- M的限制M!N!(MN)!等于MNN!,其中M次试验的成功次数为?(此步骤用于推导中。)NM


Answers:


5

我将尝试一个简单的直观解释。记录,对于一个二项式随机变量,我们有期望是Ñ p和方差是Ñ p 1 - p 。现在以为X记录了大量试验n中的事件数,每个试验的概率p都非常小,因此我们非常接近1 p = 1(真的)。那么我们有n p = λXBin(n,p)npnp(1p)Xnp1p=1np=λ比方说,和,所以均值和方差都等于λ。然后记住,对于泊松分布随机变量,我们总是具有均值和方差相等!这至少是泊松近似的合理论据,但不是证明。np(1p)np1=λλ

然后从另一个角度来看它,即泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 。如果根据规则发生随机点,则这是我们在直线上得到的随机点分布:

  1. 不相交间隔中的点是独立的
  2. 在很短的间隔内随机点的概率与间隔的长度成正比
  3. 在非常短的间隔内两个或多个点的概率基本上为零。

然后,给定间隔(不一定短)中的点数分布为Poisson(参数与长度成比例)。现在,如果我们将此间隔划分为非常短的子间隔(n),则给定子间隔中两个或多个点的概率基本上为零,因此,该数具有很好的近似贝诺利分布,也就是说,Bin 1 p ,所以所有这些的总和将是Bin n p ,因此可以很好地近似该(长)间隔中点数的泊松分布。λnBin(1,p)Bin(n,p)

@Ytsen de Boer(OP)编辑:@ŁukaszGrad令人满意地回答了第二个问题。


6

让我提供另一种启发式方法。我将展示如何将泊松过程近似为二项式(并认为这种近似对于许多低概率的试验更好)。因此,二项分布必须趋于泊松分布。

假设事件以恒定的速度发生。我们想知道的许多事件是如何发生的一天,知道事件的预期数字是分布λ

好吧,每小时的预期事件数为λ/24。假设这意味着事件在给定小时内发生的概率为λ/24。[这是不完全正确,但如果是一个体面的近似λ/241基本上如果我们可以假设多个事件不会在同一时间发生。然后,我们可以将事件数的分布近似为M=24试验的二项式,每个试验都有成功概率λ/24

我们通过将间隔切换为分钟来提高近似值。然后是p=λ/1440M=1440试验。如果λ大约为10,那么我们可以很确定没有一分钟发生两个事件。

当然,如果切换到秒,效果会更好。现在我们来看M=86400事件,每个事件的概率都为λ/86400

不管你有多大λ是,我最终可以选择一个足够小的Δt,使得它很可能没有两个事件在同一时间间隔发生。然后对应于该二项式分布Δt将是一个极好的匹配的真实泊松分布。

它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的可能性不为零。但是,由于仅存在大约λ事件,并且它们被分布到比λ大得多的一定数量的bin中,所以它们中的任何两个都不可能位于同一bin中。

换句话说,如果成功概率为p = λ / M,则二项式分布倾向于为M的泊松分布。p=λ/M


5

问题1

回顾二项分布的定义:

给定数量的试验中成功结果的可能数量的频率分布,每个试验中都有相同的成功概率。

将此与泊松分布的定义进行比较:

一种离散的频率分布,给出了在固定时间内发生许多独立事件的可能性。

两者之间的实质差异是在试验中是二项式,而Poisson是在时间段t内。限制如何直观地出现?nt

可以说,您必须永远进行Bernoulli试用。此外,您每分钟运行。每分钟,您计算一次成功。因此,对于所有永恒您运行的是ñ p 30 过程的每一分钟。在24小时内,您会有B i n p 43200 n=30Bin(p,30)Bin(p,43200)

当您感到疲倦时,会被问到“在18:00和19:00之间发生了多少成功?”。您的回答可能是,即您提供了一个小时内的平均成功率。在我看来,这听起来很像泊松参数λ3060pλ


5

问题2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

所以取固定N的极限N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1。我从看斯特林的近似开始,但是开始绕圈转。您的方法要简单得多。

我不认为这是OP会发现的直观...
kjetil b halvorsen

@kjetilbhalvorsen我试图用简单的数学可能,直观地为大型,我们有中号中号- ķ固定ķ < < 中号MMMkk<<M
卢卡斯奇格勒

1
@kjetilbhalvorsen这是对Q2(推导步骤)的回答,而不是Q1(直观的解释)的答案
Ben Bolker

@TemplateRex Hmm,但是我认为当证明逐点收敛时,我只需要为每个固定证明它,因为M成为无穷大,不是吗?也就是说&ForAll; ω &Element; Ω LIM X ω X ω NMωΩlimmXm(ω)X(ω)
卢卡斯梯度

5

问题在于,您将泊松描述为二项式分布的极限情况的描述并不十分正确

当:M 时,泊松是二项式的极限情况 第二部分很重要。如果 p保持固定,则第一个条件意味着速率也将无限制地增加。

MandMpλ.
p

泊松分布假设事件很少发生。我们所说的“稀有”不是指事件的发生率很小-实际上,泊松过程可能具有很高的强度而是事件在任何时刻[ t t + d t 很小。这与二项式模型相反,在二项模型中,事件(例如“成功”)的概率p对于任何给定的试验都是固定的。λ[t,t+dt)p

为了说明这一点,假设我们对一系列独立的伯努利试验进行建模,每个试验的成功概率为p,并且我们观察到成功次数X的分布为M 会发生什么。对于任何我们需要的N,无论p多么小,对于M > N / p,预期成功次数E [ X ] = M p > NMpXMNpE[X]=Mp>NM>N/p。换句话说,无论成功的可能性多么小,如果您进行了足够多的试验,那么最终您可以获得的平均成功次数可以达到您所希望的。因此,(或仅说“ M很大”)不足以证明X的Poisson模型合理。MMX

这是不难代数建立

Pr[X=x]=eλλxx!,x=0,1,2,
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M

0

我只能给出部分答案,这是关于问题2的直觉,而不是严格的证明。

ñ中号

中号中号ññ中号ñ/ñññ


-2

球穿过钉子层

我认为这是最好的例子,可以直观地解释在有大量球的情况下二项式分布如何收敛到正态。在这里,每个球在每一层的钉子两侧掉落的概率均等,并且所有球都必须面对相同数量的钉子。可以很容易地看出,随着球数量的增加,球在不同部分的分布将类似于正态分布。

我对问题2的回答与卢卡斯给出的答案相同。


2
这实际上不是在回答问题,而是在回答另一个问题……
kjetil b halvorsen

我试图直观地解释问题1的内容。能否请您解释一下为什么您认为这不是答案?
samwise_the_wise

1
抱歉,我明白了。我回答了一个完全不同的问题。我的错。
samwise_the_wise

1
我看到了二项分布的一个严重离散的版本。为什么显然在这个梅花形底部的球分布应该是正常的?不管您从这台机器上掉了多少球,您仍然会在13个垃圾箱中分配计数:这可能不正常!
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.