Answers:
我将尝试一个简单的直观解释。记录,对于一个二项式随机变量,我们有期望是Ñ p和方差是Ñ p (1 - p )。现在以为X记录了大量试验n中的事件数,每个试验的概率p都非常小,因此我们非常接近1 − p = 1(真的≈)。那么我们有n p = λ比方说,和,所以均值和方差都等于λ。然后记住,对于泊松分布随机变量,我们总是具有均值和方差相等!这至少是泊松近似的合理论据,但不是证明。
然后从另一个角度来看它,即泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 。如果根据规则发生随机点,则这是我们在直线上得到的随机点分布:
然后,给定间隔(不一定短)中的点数分布为Poisson(参数与长度成比例)。现在,如果我们将此间隔划分为非常短的子间隔(n),则给定子间隔中两个或多个点的概率基本上为零,因此,该数具有很好的近似贝诺利分布,也就是说,Bin (1 ,p ),所以所有这些的总和将是Bin (n ,p ),因此可以很好地近似该(长)间隔中点数的泊松分布。
@Ytsen de Boer(OP)编辑:@ŁukaszGrad令人满意地回答了第二个问题。
让我提供另一种启发式方法。我将展示如何将泊松过程近似为二项式(并认为这种近似对于许多低概率的试验更好)。因此,二项分布必须趋于泊松分布。
假设事件以恒定的速度发生。我们想知道的许多事件是如何发生的一天,知道事件的预期数字是分布。
好吧,每小时的预期事件数为。假设这意味着事件在给定小时内发生的概率为。[这是不完全正确,但如果是一个体面的近似基本上如果我们可以假设多个事件不会在同一时间发生。然后,我们可以将事件数的分布近似为试验的二项式,每个试验都有成功概率。
我们通过将间隔切换为分钟来提高近似值。然后是,试验。如果大约为10,那么我们可以很确定没有一分钟发生两个事件。
当然,如果切换到秒,效果会更好。现在我们来看事件,每个事件的概率都为。
不管你有多大是,我最终可以选择一个足够小的,使得它很可能没有两个事件在同一时间间隔发生。然后对应于该二项式分布将是一个极好的匹配的真实泊松分布。
它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的可能性不为零。但是,由于仅存在大约事件,并且它们被分布到比大得多的一定数量的bin中,所以它们中的任何两个都不可能位于同一bin中。
换句话说,如果成功概率为p = λ / M,则二项式分布倾向于为的泊松分布。
回顾二项分布的定义:
给定数量的试验中成功结果的可能数量的频率分布,每个试验中都有相同的成功概率。
将此与泊松分布的定义进行比较:
一种离散的频率分布,给出了在固定时间内发生许多独立事件的可能性。
两者之间的实质差异是在试验中是二项式,而Poisson是在时间段t内。限制如何直观地出现?
可以说,您必须永远进行Bernoulli试用。此外,您每分钟运行。每分钟,您计算一次成功。因此,对于所有永恒您运行的是乙我ñ (p ,30 )过程的每一分钟。在24小时内,您会有B i n (p ,43200 )。
当您感到疲倦时,会被问到“在18:00和19:00之间发生了多少成功?”。您的回答可能是,即您提供了一个小时内的平均成功率。在我看来,这听起来很像泊松参数λ。
问题2)
所以取固定N的极限
问题在于,您将泊松描述为二项式分布的极限情况的描述并不十分正确。
当:M → ∞时,泊松是二项式的极限情况 第二部分很重要。如果 p保持固定,则第一个条件意味着速率也将无限制地增加。
泊松分布假设事件很少发生。我们所说的“稀有”不是指事件的发生率很小-实际上,泊松过程可能具有很高的强度而是事件在任何时刻[ t ,t + d t )很小。这与二项式模型相反,在二项模型中,事件(例如“成功”)的概率p对于任何给定的试验都是固定的。
为了说明这一点,假设我们对一系列独立的伯努利试验进行建模,每个试验的成功概率为p,并且我们观察到成功次数X的分布为M → ∞会发生什么。对于任何我们需要的N,无论p多么小,对于M > N / p,预期成功次数E [ X ] = M p > N。换句话说,无论成功的可能性多么小,如果您进行了足够多的试验,那么最终您可以获得的平均成功次数可以达到您所希望的。因此,(或仅说“ M很大”)不足以证明X的Poisson模型合理。
这是不难代数建立
我认为这是最好的例子,可以直观地解释在有大量球的情况下二项式分布如何收敛到正态。在这里,每个球在每一层的钉子两侧掉落的概率均等,并且所有球都必须面对相同数量的钉子。可以很容易地看出,随着球数量的增加,球在不同部分的分布将类似于正态分布。
我对问题2的回答与卢卡斯给出的答案相同。