的CLT(在一些其各种形式中的至少)告诉我们,在极限作为单个标准化样本平均值(的分布)(在某些条件下)收敛到正态分布。n → ∞X¯- μσ/ n√
CLT不会告诉我们在或时会发生什么。n = 50Ñ = 50 ,000
但是,在尝试激励CLT时,尤其是在没有提供CLT证明的情况下,某些人依赖的采样分布来获得有限的样本,并表明当采用更大的样本时,采样分布会越来越接近CLT。正常。X¯
严格说来,这并不是在证明CLT,而是更接近于证明Berry-Esseen定理,因为它证明了采用正态性方法的速度-但这反过来又将我们引向了CLT,因此作为动机已经足够好了(实际上,无论如何,像Berry-Esseen这样的东西无论如何还是更接近于人们实际想要在有限样本中使用的东西,因此,在某种意义上,动机在实践中可能比中心极限定理本身更有用) 。
这些样本均值的分布将是正常的。
好吧,不,它们将是非正常的,但实际上它们将非常接近正常(高度有些偏斜,但不是很偏斜)。
[再次注意,对于,CLT并没有真正告诉我们有关样本均值的行为;这就是我在先前对Berry-Esseen的讨论中得到的结果,该讨论的确处理了标准化均值的分布函数与有限样本之间的距离。n =50
我正在考虑的现实案例是对50,000个Twitter用户的数据集进行统计。该数据集显然不是重复样本,仅是50,000个样本中的一个。
对于许多分布,均值50,000的样本均值将非常接近于正态分布-但不能保证,即使在n = 50,000时,您也将非常接近正态分布(如果单个项的分布足够例如,如果偏斜,则样本均值的分布可能仍然偏斜到足以使正态近似变得站不住脚。
(Berry-Esseen定理使我们可以预料到可能确实会出现该问题,并且可以证明确实如此。给出适用CLT的示例很容易,但对于n = 50,000,该示例几乎不足以解决问题。标准化样本意味着接近正常值。)