为什么CLT对不起作用?


16

因此,我们知道的和泊松与参数是本身泊松 。因此,假设可以取并说它实际上是,其中每个是:,并花大的n才能使CLT工作。nλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n)

这(显然)不起作用。我认为这与CLT如何“更快”地处理与正常情况“更接近”的随机变量有关,并且lambda越小,我们得到的随机变量越多,该随机变量大多为0,并且很少变化。

但是,我的解释是我的直觉。是否有更正式的方式来解释为什么会这样?

谢谢!


6
对于初学者,CLT需要您将除以(在这种情况下,您将收敛于高斯)。i=1nxin
Alex R.

1
@AlexR。不,您不可以除以,那么标准偏差将是的因子n1/n
Aksakal

4
我不认为此问题与CLT“无效”有什么关系。该CLT关注标准化的款项随机变量与给定的分布,而你正在服用一个单一的随机变量,盘算着无限多的方式它。
ub

2
@AlexR安装程序似乎全部错误。这里有两个不同的过程-求和和除法-没有理由假设它们应该具有相似的渐近特征。
ub

3
@Aksakal:实际上,AlexR是正确的。如果除以n,则得到的退化分布为n。如果除以n,当,sd = 1接近正态分布n
Cliff AB

Answers:


13

我同意@whuber的观点,混淆的根源似乎是用您的论点中的某种划分来代替CLT中的渐近求和。在CLT我们得到了固定分配f(x,λ)然后绘制n号码xi 从它和计算的总和x¯n=1ni=1nxi。如果我们不断增加n则会发生一件有趣的事情:

n(x¯nμ)N(0,σ2)
,其中μ,σ2是平均值和分布的方差f(x)

你是在暗示与泊松做的是有点倒退:不是变量从总结固定的分配,要分割固定分配到不断变化的部分。换句话说,你需要变量从一个固定分布˚F X λ 然后划分X 使得Ñ Σ= 1 X Xxf(x,λ)xi

i=1nxix

CLT对这一过程有何看法?没有。请注意,在CLT中我们如何不断变化,并且其变化的分布˚FÑX收敛于一个固定的分配Ñ0σ2n(x¯nμ)fn(x)N(0,σ2)

在您的设置中,总和或其分布f x λ 都没有改变!他们是固定的。他们没有改变,他们没有融合任何东西。因此,CLT无话可说。xf(x,λ)

另外,CLT没有说明总和中元素的数量。您可以从Poisson(0.001)中获得1000个变量的总和,而CLT对此没有任何说明。它的全部意思是,如果您继续增加N,那么在某个时候该总和将开始看起来像正态分布。实际上,如果N = 1,000,000,您将得到正态分布的近似值。1Ni=1Nxi,xiPoisson(0.001)

您的直觉仅是关于总和中元素的数量是正确的,即,起始分布与正态分布的差异要大于正态分布,然后您需要对更多元素求和才能达到正态。更正式的(但仍是非正式的)的方法是通过看泊松的特色功能: 如果λ > > 1,你获得与泰勒展开式(WRT 牛逼)嵌套指数: EXP λ - λ / 2 2

exp(λ(exp(it)1))
λ>>1t 这是正态分布的特征函数 Ñλ λ 2
exp(iλtλ/2t2)
N(λ,λ2)

但是,您的直觉没有正确应用:用某种除法来替换CLT中的求和会使事情搞砸,并使CLT不适用。


+1宣传材料的措辞很好,非常清楚,并成为问题的核心。
ub

7

您的示例的问题在于,您允许参数随着变化而变化。CLT告诉您,对于具有有限均值和sd 的固定分布,如n nn

xμndN(0,σ)

其中σ来自x分布的均值和sd 。μσx

当然,对于不同的分布(例如较高的偏斜度),在从该定理导出的近似变得合理之前,需要较大的。在例如,对于λ = 1 /,一个Ñ > > 之前正态近似是合理的需要。nλm=1/mn>>m

编辑

讨论了CLT如何不适用于总和,而是适用于标准化总和(即不是xi)。从理论上讲,这当然是正确的:在大多数情况下,未标准化的总和将具有不确定的分布。xi/nxi

但是,实际上,您当然可以将CLT证明的近似值应用于求和!如果可以通过正常的CDF为大近似ň的话,肯定˚F Σ X也可以,由标量蜜饯正常繁殖。你可以在这个问题上看到忙啥:回想一下,如果X P Ø 小号λ ,然后ÿ = Σ ñ = 1 X P Ø 小号ñ λ Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ)。我们都在我们上划分概率当然了解到,对于大,A的CDF P ø 小号λ 可以通过与正常近似相当好μ = λσ 2 = λ。因此,对于任何固定的λ,我们可以近似的CDF ÿ P ø 小号Ñ λ 与相当好Φ Ý - Ñ λλPois(λ)μ=λσ2=λ λYPois(nλ)为一个足够大的Ñ如果λ>0(近似可以平凡施加如果λ=0,但CDF的不计算作为我已经写它)。Φ(ynλnλ)nλ>0λ=0

尽管CLT并不容易应用于求和,但基于CLT的近似值确实适用。我认为这是OP在讨论将CLT应用于总和时所指的含义。


5

现在的问题是,我认为,如果想了解更有趣更普遍,让家长泊松依赖于分布,说与参数λ ñλ ñ = 1作为一种特殊情况。我认为问为什么以及如何理解这一点是完全合理的,对于总和S n = n i = 1 X i n,中心极限定理不成立。毕竟,即使在求和分量的分布取决于n的问题中,也通常应用CLTnλnλn=1Sn=i=1nXi,nn。通常将泊松分布分解为泊松变量总和的分布,然后应用CLT。

我看到的关键问题是您的构造隐含的分布取决于n,从而S n的分布参数不会在n中增长。如果你想,而不是采取,例如,小号ñP Ø ñ 和由相同的分解,标准CLT将适用。事实上,人们可以认为许多分解的P ø λ Ñ分布,其允许一个CLT的应用。Xi,nnSnnSnPoi(n)Poi(λn)

三角形阵列的Lindeberg-Feller中心极限定理通常用于检验此类和的收敛性。正如你指出,对于所有Ñ,所以小号Ñ不能正常渐近。尽管如此,研究一下Lindeberg-Feller条件仍可为将Poisson分解为总和提供一些启示。SnPoi(1)nSn

亨特这些笔记中可以找到一个定理的版本。令。所述Lindeberg-费勒条件是,∀ ε > 0sn2=Var(Sn)ϵ>0

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.