哪里来自于中心极限定理(CLT)?


36

中央受限定理的一个非常简单的版本,如下 ,这是Lindeberg–Lévy CLT。我不明白为什么在左侧有。Lyapunov CLT说 但是为什么不是?谁能告诉我这些因素是什么,例如和?我们如何在定理中得到它们?

n((1ni=1nXi)μ) d N(0,σ2)
n
1sni=1n(Xiμi) d N(0,1)
snn1sn

3
stats.stackexchange.com/questions/3734中对此进行了说明。这个答案很长,因为它要求“直觉”。它得出结论:“不过,这种简单的近似说明了de Moivre最初是如何怀疑存在通用极限分布的,它的对数是二次函数,并且正确的比例因子必须与成比例 ...”。snn
ub

1
直观地,如果所有则,第二行从第一行开始: 除以(当然是Lyapunov条件,组合关闭所有,是另一个问题)σi=σsn=σi2=nσ
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
σ=snnσ
1ni=1n(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
σi
Sextus Empiricus

Answers:


33

好问题(+1)!

您将记住,对于独立的随机变量和,和。因此的方差为,并且是。ÿ V - [R X + Ý = V - [R X + V - [R Ý V - [R X = 一个2V - [R X Σ ñ = 1 X Σ ñ = 1 σ 2 = ñ σ 2 ˉXYVar(X+Y)=Var(X)+Var(Y)Var(aX)=a2Var(X)i=1nXii=1nσ2=nσ2Ñσ2/Ñ2=σ2/ÑX¯=1ni=1nXinσ2/n2=σ2/n

这是为了方差。要标准化随机变量,请将其除以其标准偏差。如您所知,的期望值为,因此变量 μX¯μ

Ñ0

X¯E(X¯)Var(X¯)=nX¯μσ
期望值为0,方差为1。因此,如果趋向于高斯,则它必须是标准的高斯。您在第一个方程式中的公式是等价的。通过将左侧乘以可以将方差设置为。σ σ 2N(0,1)σσ2

关于第二点,我认为上面显示的方程式说明您必须除以而不是才能标准化方程式,并解释了为什么使用(的估计量而不是。σ小号Ñσσsnσ)sn

另外: @whuber建议讨论进行缩放的原因。他在那里做,但是因为答案很长,所以我将尝试捕捉他的论点的实质(这是对德·莫弗尔思想的重构)。n

如果您添加了大量的+1和-1的,可以近似地认为总和将是概率通过元素计数。该概率的对数与成正比。因此,如果我们希望随着变大而使上述概率收敛到一个常数,则必须在使用归一化因子。j j 2 / n n O njj2/nnO(n)

使用现代的数学工具(post de Moivre),您可以注意到所寻找的概率为

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

我们用斯特林公式近似

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.

请查看我对Michael C.和Guy先前答案的评论。
ub

似乎像第一个方程式(LL CLT)s / b吗?这也使我感到困惑,作为方差出现。n((1ni=1nXi)μ) d N(0,1)σ2
B_Miner 2012年

如果用均值和方差(不是标准偏差)对高斯参数化,那么我认为OP的公式是正确的。
gui11aume12年

1
啊..鉴于如果乘以通过我们得到了OP显示的内容( cancel):即。但是我们知道VAR(aX)= a ^ 2Var(X),在这种情况下,a =而Var(X)为1,因此分布为。X¯E(X¯)Var(X¯)=nX¯μσd N(0,1)X¯E(X¯)Var(X¯)σσn((1ni=1nXi)μ)σ2N(0,σ2)
B_Miner 2012年

桂,如果不是太晚,我想确保我有正确的答案。如果我们假设然后乘以常数(),即该数量的期望值(即)仍然为零,因为E [aX] = a * E [X] => * 0 = 0。它是否正确?σ X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σσn(X¯μ)σ
B_Miner 2012年

8

关于什么样的分布可以限制随机变量之和的分布,有一个很好的理论。不错的资源是彼得罗夫(Petrov )的以下著作,我个人非常喜欢。

事实证明,如果要研究这种类型的极限 ,其中是独立随机变量,则极限分布为仅某些分布。

1ani=1nXnbn,(1)
Xi

然后有许多数学运算,可以归结为几个定理,这些定理完全刻画了极限中发生的情况。此类定理之一是由于Feller:

定理令为独立随机变量的序列,为的分布函数, 为正常数的序列。为了使{Xn;n=1,2,...}Vn(x)Xnan

max1knP(|Xk|εan)0, for every fixed ε>0

supx|P(an1k=1nXk<x)Φ(x)|0

有必要并且足够

k=1n|x|εandVk(x)0 for every fixed ε>0,

an2k=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

an1k=1n|x|<anxdVk(x)0.

然后,该定理使您了解外观。an

书中的一般理论以这样的方式构造:以任何方式限制范数常量,但是给出必要条件和充分条件的最终定理除了之外,没有留下范数常量的余地。n


4

s代表样本平均值的样本标准偏差。小号为样本均值的样本方差和它等于小号 / N。其中S是总体方差的样本估计。由于s = S /√n,这解释了√n在第一个公式中的出现方式。请注意,如果限制为nn2n2n2nn

N(0,1),但限制为N(0,σ)。由于S是σ的一致估计,因此在第二等式中使用来使σ超出极限。2n


那么问题的其他(更基本和重要的)部分又如何呢:为什么使用而不是其他一些分散的度量?sn
ub

@whuber可能有待讨论,但这不是问题的一部分。OP只是想知道为什么s和√n出现在CLT的公式中。当然存在S是因为它与σ保持一致,并且以CLT的形式删除了。nn
Michael R. Chernick 2012年

1
对我来说,还不清楚是否存在,因为它“对于一致”。为什么这还不意味着要使用归一化极值统计信息(这将不起作用)?我缺少简单而不言而喻的东西吗?而且,要回显OP,为什么不使用毕竟,这与是一致的!snσsnsnσ
ub

所述定理具有N(0,1)的收敛性,因此要达到目的,您要么必须知道σ并使用它,要么使用它的一致估计即可,这取决于我认为的Slutsky定理。我不清楚吗?
Michael R. Chernick

我不认为你不清楚。我只是认为可能遗漏了一个重要的观点。毕竟,对于许多分布,我们可以使用IQR而不是来获得极限正态分布,但是结果却不那么整洁(极限分布的SD取决于我们开始的分布)。我只是建议应该对此加以说明。对于没有40年标准化所遇到的所有发行版本所产生的直觉的人来说,这将不是那么明显!sn
ub

2

直观地,如果对于某些我们应该期望大致等于 ; 这似乎是一个非常合理的期望,尽管我一般认为这不是必需的。第一个表达式中的原因是的方差像一样变为,因此会夸大方差,因此表达式的方差等于。在第二个表达式中,术语定义为ZnN(0,σ2)σ2Var(Zn)σ2nX¯nμ01nnσ2sni=1nVar(Xi)虽然分子的方差像一样增长,所以我们再次使整个表达式的方差为常数(在这种情况下为)。i=1nVar(Xi)1

本质上,我们知道的分布正在发生“有趣”的事情,但是如果我们不能正确地居中和缩放它,我们将无法看到它。我听说这有时需要调整显微镜。如果不炸毁(如)由那么我们就必须由弱律分布; 它本身就是一个有趣的结果,但没有CLT提供的信息丰富。如果我们将以为主的任何因数充气,则仍将而为主的任何因数X¯n:=1niXiX¯μnX¯nμ0annan(X¯nμ)0ann将。事实证明是正确的放大倍率,能够看到在这种情况下发生的情况(注意:这里所有的收敛都在分布中;还有另一个放大倍数,对于几乎可以肯定的收敛很有趣,这会引起到对数的迭代法则)。an(X¯nμ)n


4
首先应解决的一个更基本的问题是,为什么使用SD来测量色散。为什么不是绝对中央时刻的其他一些价值?还是为什么不选择IQR或其任何亲戚?一旦得到回答,协方差的简单属性便立即赋予依赖性(正如@ Gui11aume最近解释的那样。)kthkn
whuber

1
我同意@whuber,这就是为什么我将其呈现为启发式。我不确定是否可以进行简单的解释,尽管我希望听到一个解释。对我来说,我不确定过去有一个更简单,可以解释的原因,因为“平方项是减去均值后特征函数的泰勒展开式中的相关项”。
家伙
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.