因此,我们知道的和泊松与参数是本身泊松 。因此,假设可以取并说它实际上是,其中每个是:,并花大的n才能使CLT工作。
这(显然)不起作用。我认为这与CLT如何“更快”地处理与正常情况“更接近”的随机变量有关,并且lambda越小,我们得到的随机变量越多,该随机变量大多为0,并且很少变化。
但是,我的解释是我的直觉。是否有更正式的方式来解释为什么会这样?
谢谢!
因此,我们知道的和泊松与参数是本身泊松 。因此,假设可以取并说它实际上是,其中每个是:,并花大的n才能使CLT工作。
这(显然)不起作用。我认为这与CLT如何“更快”地处理与正常情况“更接近”的随机变量有关,并且lambda越小,我们得到的随机变量越多,该随机变量大多为0,并且很少变化。
但是,我的解释是我的直觉。是否有更正式的方式来解释为什么会这样?
谢谢!
Answers:
我同意@whuber的观点,混淆的根源似乎是用您的论点中的某种划分来代替CLT中的渐近求和。在CLT我们得到了固定分配然后绘制号码 从它和计算的总和。如果我们不断增加则会发生一件有趣的事情:
你是在暗示与泊松做的是有点倒退:不是变量从总结固定的分配,要分割的固定分配到不断变化的部分。换句话说,你需要变量从一个固定分布˚F (X ,λ )然后划分成X 我使得Ñ Σ我= 1 X 我 ≡ X
CLT对这一过程有何看法?没有。请注意,在CLT中我们如何不断变化,并且其变化的分布˚FÑ(X)收敛于一个固定的分配Ñ(0,σ2)
在您的设置中,总和或其分布f (x ,λ )都没有改变!他们是固定的。他们没有改变,他们没有融合任何东西。因此,CLT无话可说。
另外,CLT没有说明总和中元素的数量。您可以从Poisson(0.001)中获得1000个变量的总和,而CLT对此没有任何说明。它的全部意思是,如果您继续增加N,那么在某个时候该总和将开始看起来像正态分布。实际上,如果N = 1,000,000,您将得到正态分布的近似值。
您的直觉仅是关于总和中元素的数量是正确的,即,起始分布与正态分布的差异要大于正态分布,然后您需要对更多元素求和才能达到正态。更正式的(但仍是非正式的)的方法是通过看泊松的特色功能: 如果λ > > 1,你获得与泰勒展开式(WRT 牛逼)嵌套指数: ≈ EXP (我λ 吨- λ / 2 吨2
但是,您的直觉没有正确应用:用某种除法来替换CLT中的求和会使事情搞砸,并使CLT不适用。
您的示例的问题在于,您允许参数随着变化而变化。CLT告诉您,对于具有有限均值和sd 的固定分布,如n → ∞,
,
其中和σ来自x分布的均值和sd 。
当然,对于不同的分布(例如较高的偏斜度),在从该定理导出的近似变得合理之前,需要较大的。在例如,对于λ 米 = 1 /米,一个Ñ > > 米之前正态近似是合理的需要。
编辑
讨论了CLT如何不适用于总和,而是适用于标准化总和(即不是∑xi)。从理论上讲,这当然是正确的:在大多数情况下,未标准化的总和将具有不确定的分布。
但是,实际上,您当然可以将CLT证明的近似值应用于求和!如果可以通过正常的CDF为大近似ň的话,肯定˚F Σ X也可以,由标量蜜饯正常繁殖。你可以在这个问题上看到忙啥:回想一下,如果X 我〜P Ø 我小号(λ ),然后ÿ = Σ ñ 我= 1 X 我〜P Ø 我小号(ñ λ )。我们都在我们上划分概率当然了解到,对于大,A的CDF P ø 我小号(λ )可以通过与正常近似相当好μ = λ,σ 2 = λ。因此,对于任何固定的λ,我们可以近似的CDF ÿ 〜P ø 我小号(Ñ λ )与相当好Φ (Ý - Ñ λ 为一个足够大的Ñ如果λ>0(近似可以平凡施加如果λ=0,但CDF的不计算作为我已经写它)。
尽管CLT并不容易应用于求和,但基于CLT的近似值确实适用。我认为这是OP在讨论将CLT应用于总和时所指的含义。
现在的问题是,我认为,如果想了解更有趣更普遍,让家长泊松依赖于分布,说与参数λ ñ和λ ñ = 1作为一种特殊情况。我认为问为什么以及如何理解这一点是完全合理的,对于总和S n = ∑ n i = 1 X i ,n,中心极限定理不成立。毕竟,即使在求和分量的分布取决于n的问题中,也通常应用CLT。通常将泊松分布分解为泊松变量总和的分布,然后应用CLT。
我看到的关键问题是您的构造隐含的分布取决于n,从而S n的分布参数不会在n中增长。如果你想,而不是采取,例如,小号ñ〜P Ø 我(ñ )和由相同的分解,标准CLT将适用。事实上,人们可以认为许多分解的P ø 我(λ Ñ)分布,其允许一个CLT的应用。
三角形阵列的Lindeberg-Feller中心极限定理通常用于检验此类和的收敛性。正如你指出,对于所有Ñ,所以小号Ñ不能正常渐近。尽管如此,研究一下Lindeberg-Feller条件仍可为将Poisson分解为总和提供一些启示。
亨特在这些笔记中可以找到一个定理的版本。令。所述Lindeberg-费勒条件是,∀ ε > 0:
Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in that for every . For fixed , we also have that the are iid. Thus, the condition is equivalent to
But, for small and large ,
which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of for every , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in you could have the condition hold.