为什么中心极限定理对单个样本有效?


12

我一直被教导,当您重复采样并且每个采样足够大时,CLT就会起作用。例如,假设我有一个拥有100万公民的国家。我对CLT的理解是,即使他们的身高分布不正常,如果我对50个人进行了1000次抽样(即,对50位市民进行了1000次调查),然后计算了每个样本的平均身高,这些样本的分布意味着正常。

但是,我从未见过现实世界中研究人员重复取样的情况。相反,他们采取了一个大样本(即,调查了50,000名公民的身高)并以此作为工作依据。

为什么统计书教导重复采样,而在现实世界中研究人员只能进行一次采样?

编辑:我正在考虑的现实案例是对50,000个Twitter用户的数据集进行统计。该数据集显然不是重复样本,仅是50,000个样本中的一个。


从50,000中抽取1000个样本几乎与从50,000中独立抽取1000个单个样本相同。样本越小(或宇宙越大),它们看起来越相似。
托马斯·阿勒

Answers:


14

CLT(在一些其各种形式中的至少)告诉我们,在极限作为单个标准化样本平均值(的分布)(在某些条件下)收敛到正态分布。ñX¯-μσ/ñ

CLT不会告诉我们在或时会发生什么。ñ=50ñ=50000

但是,在尝试激励CLT时,尤其是在没有提供CLT证明的情况下,某些人依赖的采样分布来获得有限的样本,并表明当采用更大的样本时,采样分布会越来越接近CLT。正常。X¯

严格说来,这并不是在证明CLT,而是更接近于证明Berry-Esseen定理,因为它证明了采用正态性方法的速度-但这反过来又将我们引向了CLT,因此作为动机已经足够好了(实际上,无论如何,像Berry-Esseen这样的东西无论如何还是更接近于人们实际想要在有限样本中使用的东西,因此,在某种意义上,动机在实践中可能比中心极限定理本身更有用) 。

这些样本均值的分布将是正常的。

好吧,不,它们将是非正常的,但实际上它们将非常接近正常(高度有些偏斜,但不是偏斜)。

[再次注意,对于,CLT并没有真正告诉我们有关样本均值的行为;这就是我在先前对Berry-Esseen的讨论中得到的结果,该讨论的确处理了标准化均值的分布函数与有限样本之间的距离。ñ=50

我正在考虑的现实案例是对50,000个Twitter用户的数据集进行统计。该数据集显然不是重复样本,仅是50,000个样本中的一个。

对于许多分布,均值50,000的样本均值将非常接近于正态分布-但不能保证,即使在n = 50,000时,您也将非常接近正态分布(如果单个项的分布足够例如,如果偏斜,则样本均值的分布可能仍然偏斜到足以使正态近似变得站不住脚。

Berry-Esseen定理使我们可以预料到可能确实会出现该问题,并且可以证明确实如此。给出适用CLT的示例很容易,但对于n = 50,000,该示例几乎不足以解决问题。标准化样本意味着接近正常值。)


要检查50,000是否足够大,例如可以在R中进行仿真,对吗?我将使用样本的平均值和标准偏差,但是如何确保从样本的相同分布进行模拟?
Amonet '19

严格来说,您需要根据人口分布进行模拟。您可以将样本的分布视为总体分布的估计值(类似于自举法),但这对于这样的目的是不够的。例如,考虑从柯西分布中抽取一个样本,然后用替换样本对该样本进行重采样。(对于越来越大的样本),直到重新采样的均值的分布看起来“足够正常”为止。您将始终得出结论,某个有限的样本量就足够了,但实际上是不可能的。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.