中心极限定理有什么直观的解释?


144

在几种不同的情况下,我们调用中心极限定理来证明我们要采用的任何统计方法(例如,通过正态分布近似二项式分布)。我了解关于该定理为何成立的技术细节,但是我刚刚想到,我并不真正理解中心极限定理背后的直觉。

那么,中心极限定理背后的直觉是什么?

Layman的解释将是理想的。如果需要一些技术细节,请假设我了解pdf,cdf,随机变量等的概念,但不了解收敛概念,特征函数或与度量理论有关的知识。


8
尽管我的立即反应得到我有限的教学经验的支持,但很好的问题是,对于大多数人来说,CLT最初根本不是直觉。如果有的话,这是违反直觉的!
一站式

2
@onestop阿们!当n增大时,盯着p = 1/2 的二项式分布确实表明CLT潜伏着-但是它的直觉总是让我无法理解。
罗纳夫

2
有一些不错的想法类似的问题:stats.stackexchange.com/questions/643/...

1
不是解释,而是这种模拟可以帮助您理解它。
David Lane

Answers:


119

对于这篇文章的篇幅,我事先表示歉意:有点让我不高兴在公开场合露面,因为通读它会花费一些时间和精力,并且毫无疑问会出现印刷错误和说明错误。但是这里是为那些对这个有趣的主题感兴趣的人提供的,希望它能鼓励您从CLT的许多部分中识别出一个或多个,以便您自己做出进一步的阐述。


大多数“解释” CLT的尝试都是说明或仅是断言其正确的陈述。一个真正深入,正确的解释将不得不解释很多事情。

在进一步研究之前,让我们先了解一下CLT所说的内容。 众所周知,有些版本的通用性有所不同。公共上下文是一系列随机变量,它们是公共概率空间上的某些函数。对于严谨的直观解释,我发现将概率空间视为具有可区分对象的盒子很有帮助。这些对象是什么无关紧要,但我将它们称为“门票”。我们通过彻底混合票并抽出一张票来对箱子进行“观察”。那张票构成了观察。在将其记录下来以供以后分析后,我们将票证放回盒子中,以便其内容保持不变。“随机变量”基本上是写在每张票证上的数字。

1733年,亚伯拉罕·德·莫夫Abraham de Moivre)考虑了一个盒子的情况,其中票证上的数字只有零和一(“伯努利审判”),每个数字都有一部分。他设想进行物理上独立的观察,产生值的序列,所有值均为零或一。这些值的总和是随机的,因为总和中的项是。因此,如果我们可以重复多次此过程,则各种和(频率范围从到)将以不同的频率出现-占总数的比例。(请参见下面的直方图。)x 1x 2x n y n = x 1 + x 2 + + x n 0 nnx1,x2,,xnyn=x1+x2++xn0n

现在人们可以期望-的确如此-对于非常大的值,所有频率都将非常小。如果我们是如此大胆的(或愚蠢),以试图“采取限制”或“让去 ”,我们会正确地得出结论,所有频率降低到0。但是,如果我们简单地绘制频率的直方图,而不关注其轴的标记方式,就会发现大n的直方图看起来都一样:从某种意义上讲,即使频率在一定范围内,这些直方图也接近极限自己都归零。ñ nn0n

直方图

这些直方图描绘了多次重复获得的过程的结果。n是标题中的“试验次数”。ynn

这里的见识是先绘制直方图,然后再标记其轴。当较大时,直方图将覆盖以n / 2为中心的较大范围的值(在水平轴上),并且值的间隔将逐渐消失(在垂直轴上),因为各个频率都变得很小。因此拟合该曲线到绘图区已要求两者移位重新缩放直方图的。对此的数学描述是,对于每个n,我们都可以选择某个中心值m n(不一定唯一!)来定位直方图和某个比例值s nnn/2nmnsn(不一定唯一!)以使其适合轴。这可以通过将更改为z n = y n - m n/ s n来数学完成。ynzn=(ynmn)/sn

请记住,直方图通过其与水平轴之间区域表示频率这些直方图对于大的值的最终稳定性因此应以面积表示。n 因此,选择您喜欢的任何值区间,例如从b > a,然后随着n的增加,跟踪z n直方图的水平跨过区间a b ]的部分的面积。CLT断言了几个东西:ab>anzn(a,b]

  1. 无论b是什么,ab如果我们适当地选择序列s n(以完全不依赖于ab的方式),则随着n变大,该区域的确接近极限。mnsnabn

  2. 序列s n的选择方式仅取决于n,方框中值的平均值以及这些值的散布程度(但不取决于其他因素),因此无论在什么位置框,限制始终是相同的。(这种通用性很棒。)mnsnn

  3. 具体而言,限制区域是曲线下面积之间一个b:这是普遍限制直方图的公式。y=exp(z2/2)/2πab

    CLT的第一个概括是,

  4. 当盒子中除了零和一之外还可以包含数字时,得出完全相同的结论(前提是盒子中极大或极小的数字的比例不是“太大”,即具有精确且简单的定量说明的准则) 。

    下一个概括,也许是最令人惊讶的概括,用有序无限长的带有票证的盒子阵列代替了这单张票证。每个盒子上的票证可以按不同比例具有不同的编号。观察是通过从第一个盒子中抽取一张票来进行的,x 2来自第二个盒子,依此类推。x1x2

  5. 只要盒子的内容“没有太大的不同”,就得出完全相同的结论(对于“没有太大的不同”意味着什么,有几个精确但定量的定量表征;它们允许惊人的纬度)。

这五个断言至少需要解释。 还有更多。在所有语句中都隐含了设置的几个有趣方面。例如,

  • 总和有什么特别之处?为什么我们没有其他数字组合(例如乘积或最大值)的中心极限定理?(事实证明我们这样做了,但是除非它们可以归纳为CLT,否则它们不是那么笼统,也不总是有一个如此简洁明了的结论。)s n的序列不是唯一的,但是它们是几乎是唯一的,因为最终他们必须分别近似于n个票证的总和的期望值和总和的标准差(在CLT的前两个语句中等于mnsnn倍于框的标准偏差)。 n

    标准偏差是衡量价值分布的一种方法,但从历史上看或在许多应用中,它决不是唯一的,也不是最“自然的”。(例如,许多人会选择相对于中位数的绝对偏差中位数。)

  • 为什么SD如此重要地出现?

  • 考虑极限直方图的公式:谁会期望它采用这种形式? 它说概率密度的对数是一个二次函数。为什么?是否有一些直观或清晰,令人信服的解释?


我承认我无法达到提供足够简单的答案以满足Srikant直观和简单的挑战性标准的最终目标,但是我已经勾勒出这种背景,希望可以启发其他人来填补许多空白。我认为一个好的示范最终必须依靠如何之间的值的元素分析β Ñ = b 小号Ñ + Ñ在形成和可以出现X 1 + X 2 + ... + x nαn=asn+mnβn=bsn+mnx1+x2++xn。回到CLT的单盒版本,对称分布的情况更易于处理:其中位数等于其均值,因此小于盒均值的可能性为50%,而50%的机会为x iX 会比它意味着更大。此外,当n足够大时,与均值的正偏差应补偿均值的负偏差。(这需要一些仔细的论证,而不仅仅是挥手。)因此,我们应该主要关注计算正偏差和负偏差的数量,并且仅关注其大小。xixin (在我在这里写的所有内容中,这对于提供CLT为何起作用的直觉可能是最有用的。实际上,使CLT归纳为真所需的技术假设实质上是各种方法,以排除以下可能性:罕见的巨大偏差将足以使余额不平衡,以防止出现限制直方图。)

无论如何,这从某种程度上表明了CLT的第一次泛化并没有真正揭示出de Moivre最初的Bernoulli试用版中没有的任何内容。

在这一点上,看起来似乎没有什么可做的,只是要做一些数学运算:我们需要计算不同方式的数量,在这些方式中,与均值的正偏差数可以与负偏差数相差任意预定值,其中显然ķ是之一- ñ - ñ + 2 ... ñ - 2 ñ。但是,由于消失的微小错误将在极限中消失,因此我们不必精确地进行计数。我们只需要近似计数即可。为此,只要知道kkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(这是一个非常基本的结果,因此我不会费心写下理由。)现在我们近似地进行批发。当尽可能接近n / 2(也是基本的)时,就会出现最大频率。让我们写m = n / 2。然后,相对于最大频率,的频率+ Ĵ + 1个正偏差(Ĵ 0)是由产品估计kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

在de Moivre写作前135年,John Napier发明了对数以简化乘法,因此让我们利用它。使用近似

log(1x1+x)2x,

我们发现相对频率的对数大约是

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

因为累积误差与成正比,所以如果j 4相对于m 3小,则该误差应该很好。这涵盖了比所需更大的j值范围。(就足够了近似的工作Ĵ只的顺序j4/m3j4m3jj,其渐近远小于 3 / 4)。mm3/4


显然,应该提供更多此类分析来证明CLT中的其他主张是正确的,但是我已经没有时间,空间和精力了,我可能已经失去了开始阅读此书的90%的人。不过,这种简单的近似表明de Moivre最初可能是如何怀疑存在一个通用极限分布,它的对数是一个二次函数,以及正确的比例因子必须与成正比。sn(因为j2/m=2j2/n=2j/n)。j2/m=2j2/n=2(j/n)2 很难想象如果不调用某种数学信息和推理就可以解释这种重要的定量关系。少做任何事情都会使极限曲线的精确形状完全神秘。


5
+1我需要一些时间来消化您的答案。我承认,要在我施加的限制范围内要求CLT有直觉,几乎是不可能的。

2
感谢您抽出宝贵的时间编写本文,它是我所见过的CLT的最有用的说明,在数学上也很容易理解。
杰里米·拉德克里夫

1
是的,非常密集...。这么多问题。第一个直方图如何有2条(只有1个试验!);我可以不理会吗?而习惯是平时避免直方图的酒吧之间的水平差距,对不对?(因为,正如您所说,面积很重要,并且面积最终将在连续(即无间隙)域上进行计算)?所以我也将忽略这些差距...?甚至当我第一次尝试理解它时,我也有差距:)
红豌豆

1
@TheRed谢谢您的提问。我已经编辑了本文的第一部分,以使这些要点更加清楚。
ub

4
n

27

我知道的最好的动画:http : //www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8个等距间隔的水平层,每层交错排列,会导致“弹球/弹子球”式障碍物通过这​​些针掉落的球。 每个球都落在底部,并且随着球的堆积,它们的高度接近高斯曲线的轮廓。 这说明许多独立的随机事件(各层)的总和将导致结果的高斯分布(堆积的球高)

我读过的最简单的单词:http : //elonen.iki.fi/articles/centrallimit/index.en.html

如果将这十次掷球的结果相加,则得到的结果可能比最大掷球数60(全部为六)或最小掷球数(全部为10)接近30-40。

这样做的原因是,您可以获得比极​​值更多的中间值。示例:投掷两个骰子时:1 + 6 = 2 + 5 = 3 + 4 = 7,但只有1 + 1 = 2和只有6 + 6 = 12。

那就是:即使掷一个骰子时,您得到六个数字中的任何一个的可能性均等,但与几个骰子的总和相比,中间值的可能性较小。


20

直觉是一件棘手的事情。如果我们的理论被束缚在背后,那就更棘手了。

CLT是关于微小的独立干扰的总和。样本意义上的“总和”是指(总体)有限方差中的“微小”,而中央(人口)值周围是正/负是“干扰”。

对我而言,最能吸引直觉的设备是梅花形或“加尔顿盒子”(Galton box),请参阅Wikipedia(适用于“豆类机器”?)的想法是将一个小小的球滚落在装饰有格子的木板表面上等间距的引脚。球在向下移动时会向左和向右转移(...随机,独立)并聚集在底部。随着时间的流逝,我们在眼前看到了一个漂亮的钟形丘。

CLT说了同样的话。这是对此现象的数学描述(更准确地说,梅花形是二项分布正态近似的物理证据)。松散地说,CLT表示,只要我们的人口没有过分过份行事(也就是说,如果PDF的尾巴足够细),则样本均值(适当缩放)的行为就像那只小球弹到梅花形:有时它向左掉落,有时它向右掉落,但是大多数时候它以漂亮的钟形降落在中间。

(对我而言)CLT的威严之处在于基础人群的形状无关紧要。形状仅在决定我们需要等待的时间长度(就样本量而言)时才起作用。


17

S=X1+X2++Xn

S

nn=

S/n

由于中心极限定理在统计中具有所有“神圣性”,因此其极易被忽视。在下面的课程中,我给出了两张幻灯片,指出在任何实际使用情况下CLT都完全失败了。不幸的是,许多人有意或无意地使用CLT估计尾部概率。

在此处输入图片说明 在此处输入图片说明


5
这是很好的材料和明智的建议。不幸的是,我无法赞扬它,因为“此常态性是一个数学产物,我认为搜索其背后更深层的真相或直觉没有用”,这令人深感不安。他们似乎建议(1)我们不应该依靠数学来从理论上帮助我们(2)首先没有必要理解数学。我希望该线程中的其他帖子在反驳第二个断言方面已经走了很长一段路。第一个是如此自相矛盾,几乎不需进一步分析。
ub

2
@whuber。你是对的,也许我不在同盟之列。我会编辑。
StijnDeVuyst,2015年

3
感谢您重新考虑有问题的部分,并为其余部分重新考虑+1。
ub

7

该答案希望通过使用简单的演算技术(泰勒展开阶数为3)给出中心极限定理的直观含义。概要如下:

  1. CLT怎么说
  2. 使用简单演算的CLT直观证明
  3. 为什么呈正态分布?

我们将在最后提到正态分布。因为最终会出现正态分布这一事实并没有太多直觉。

1.中心极限定理说什么?CLT的多个版本

xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn,前提是随机变量与均值为零,方差为1无关。

kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

可以在以下语句之间建立等价关系(“当且仅当”):

  1. ff(t)=1t<xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

上面的4点中的每一个都说收敛适用于一大类功能。由技术近似的说法,可以证明的是,上述四点是等价的,我们指的读者大卫·波拉德的书的第7章,77页的用户指南来衡量理论概率从这个答案是非常启发。

我们对其余答案的假设...

我们假设对于某个常数,它对应于上面的点4。我们还将假设随机变量具有有限的第三矩:和 是有限的。supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2.是通用的:它不依赖于的分布E[f(X1++Xnn)]X1,...,Xn

让我们证明这个数量是通用的(直到一个小的误差项),从这个意义上说,它不取决于提供的独立随机变量的集合。取和两个独立的随机变量序列,每个序列的均值为0和方差为1,且有限的第三矩。X1,,XnZ1,,Zn

这个想法是用一个数量中的迭代地替换并通过基本演算来控制差值(我相信,这个想法是由于Lindeberg)。通过泰勒展开,如果,并且则 其中和XiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMn是平均值定理给出的中点。考虑到两行的期望,零阶项是相同的,一阶项在期望上是相等的,因为通过和的独立性,,第二行类似。同样通过独立性,二阶项在期望上是相同的。剩下的唯一项是三阶项,并且期望两行之间的差异最多为 这里是的三阶导数的上限。分母出现是因为XnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3通过独立性,在总和中的贡献是没有意义的,因为可以用替换它,而不会引起大于以上显示的错误!XnZn

现在,我们重申将替换为。如果则 通过和的独立性以及和独立性Xn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~,则期望这两条线的零阶,一阶和二阶项相等。这两行之间期望值的差异最大为 我们一直迭代,直到用替换所有为止。通过加上在步骤中的每个步骤所产生的错误,我们获得 作为

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
n如果随机变量的第三阶矩是有限的(假设是这种情况),则右手边会变小。这意味着无论的分布是否远离的分布,左侧的期望值都变得彼此接近。通过独立性,每个在总和中的贡献是没有意义的,因为它可以用替换而不会产生大于的误差 和更换所有的由的不通过超过改变量。X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

因此,期望是通用的,它不依赖于的分布。另一方面,独立性和对于上述界限至关重要。E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3.为什么呈正态分布?

我们已经看到,期望将是相同的,无论是什么的分布是,由阶小误差。E[f(X1++Xnn)]XiO(1/n)

但是对于应用程序而言,计算该数量将很有用。获得此数量的简单表达式也是有用的。E[f(X1++Xnn)]

由于此数量对于任何集合都是相同的,我们可以简单地选择一个特定的集合,以使分布易于计算或易于记忆。X1,,Xn(X1++Xn)/n

对于正态分布,该数量确实变得非常简单。确实,如果等于则也具有分布,并且它不依赖于!因此,如果,则 和由上述参数,对于独立随机变量的任何集合与,则N(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

您似乎在主张一个大数定律,而不是CLT。
ub

1
我不确定为什么你会这样说,@ whuber。上面给出了直观的证明,收敛到,其中对于大类函数,。这是CLT。È[˚Fż]ŽÑ01˚FE[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
jlewk

2
我明白你的意思了。让我停顿的是,您的主张仅涉及期望而不是分布,而CLT得出有关有限分布的结论。两者之间的对等关系可能对许多人来说并不立即显而易见。那么,我是否建议您在限制分配方面提供您的声明与CLT的常规声明之间的明确联系?(顺便提一下+1:谢谢您阐述这个论点。)
ub

1

我放弃尝试提供一个直观的版本,并提出了一些模拟。我有一个模拟了Quincunx的仿真器,还有一些做类似的事情,例如,如果您为每个主题收集了足够的RT,那么即使原始反应时间的偏斜分布也将变得正常。我认为他们有帮助,但是今年他们是我班上的新手,而我还没有为第一次考试打分。

我认为很好的一件事就是能够显示大量定律。我可以说明小样本量情况下可变的情况,然后说明大样本量时情况如何稳定。我也做了很多其他的演示。我可以在Quincunx中显示随机过程数量和样本数量之间的交互。

(结果是我班上不能使用粉笔或白板可能是一种幸运)


嗨,约翰:九年后很高兴看到您回过头来发表这篇文章!了解您在使用模拟的同时教给CLT和LLN的想法时所经历的事情会很有趣。
ub

一年后,我停止了那堂课的教学,但随后的老师接受了模拟的想法。实际上,他的能力更强,并开发了一系列闪亮的应用程序,并让学生玩模拟了250人课堂中的工作量。从上流社会的教学可以看出,学生似乎从中学到了很多。他的学生与同等补习班的学生之间的区别非常明显。(但是,当然那里有很多不受控制的变量)
约翰·

谢谢约翰。在课程结束后,即使得到关于持久学生表现的轶事反馈,也是如此罕见,以至于我什至也发现了这些有限的信息。
ub

-8

当您将大量随机分布的直方图加在一起时,要么保持正态分布形状(因为所有单个直方图都已经具有该形状),要么得到该形状,因为如果添加较大的直方图中的波动往往会相互抵消直方图的数量。一个变量的随机分布的直方图已经以人们开始称呼正态分布的方式大致分布,因为它是如此普遍,这是中心极限定理的缩影。

这不是全部,但我认为它是直观的。


2
您对“正态分布”的描述听起来像是双指数的离散版本,甚至远非高斯正态分布(除非它们都是单峰和对称的)。硬币掷出的直方图没有条形,每一级都减少了倍!这表明在这种解释中可能隐藏着一些困难,这些困难已经通过呼吁“直觉”而消失了。2
Whuber

5
这个答案主要是胡说八道。没有抛掷公平硬币的次数将导致具有概率正面数目的分布。确实那甚至不是概率质量函数!在也没有负责人的行号有什么关系的问题。18,14,12,14,18
Dilip Sarwate 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.