中心极限定理需要大样本量的分布示例


19

有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯

我知道这还不够所有发行版。

我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。

我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。


5
考虑形状参数为的Gamma分布α。将比例设为1(没关系)。比方说,你把Gamma(α0,1)刚刚 “足够正常”。然后,你需要得到1000个观测到足够正常分布具有Gamma(α0/1000,1分布。
Glen_b-恢复莫妮卡2013年

1
@Glen_b,为什么不做一个正式的答案并发展一点呢?
gung-恢复莫妮卡

4
任何受到充分污染的分发都可以使用,就像@Glen_b的示例一样。例如,当基础分布是正态(0,1)和正态(huge value,1)的混合,而后者只有很小的出现概率时,就会发生有趣的事情:(1)大多数情况下,不会出现污染,也没有偏斜的迹象;但是(2)有时会出现污染,并且样品的偏度很大。样本均值的分布将高度偏斜,尽管自举(例如)通常不会检测到它。
ub

1
@whuber的例子很有启发性,表明中心极限定理在理论上可以任意地引起误解。在实际实验中,我想一个人要问自己是否会出现一些很少发生的巨大影响,并在不加思索的情况下应用理论结果。
David Epstein 2013年

Answers:


19

有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯

这个通用的经验法则几乎完全没有用。对于n = 2的非正态分布,可以做的很好;对于大得多的非正态分布,则是不足够的-因此,在没有明确限制情况的情况下,该规则具有误导性。无论如何,即使是正确的情况,所需的n也会根据您的操作而变化。通常,您会在较小n的分布中心附近获得良好的近似值,但需要大得多的n才能在尾部获得良好的近似值。nnnn

编辑:请参阅问题的答案,以获取关于问题的众多但显然是一致的意见,以及一些良好的链接。不过,我不会在意这一点,因为您已经很清楚了。

我想看一些分布示例,即使样本量很大(可能是100或1000或更大),样本均值的分布仍然相当偏斜。

例子相对容易构建。一种简单的方法是找到一个非正态的无限整除分布并将其分解。如果您有一个在求平均值或求和时接近法线的法线,请从“接近法线”的边界开始,并根据需要进行尽可能多的划分。因此,例如:

考虑形状参数为的Gamma分布。将比例设为1(比例无关紧要)。比方说,你把伽玛α 01 为只是“正常的充分”。然后,你需要得到1000个观测到足够正常分布具有伽玛α 0 / 1000 1 分布。αGamma(α0,1伽玛α0/10001个

因此,如果您认为的伽玛就足够“正常”了-α=20

伽玛(20)pdf

然后将除以1000,得到α = 0.02α=20α=0.02

伽玛(0.02)pdf

其中平均1000个将具有第一个pdf的形状(但没有其比例)。

σ/ñ

@whuber关于受污染的分布的观点是一个很好的观点;可能需要在这种情况下尝试一些模拟,看看在许多此类样本中情况如何。



9

您可能会发现本文很有帮助(或至少很有趣):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMass的研究人员实际上进行了一项与您所要求的类似的研究。由于CLT,某些分布的数据是否遵循正态分布?显然,为心理学实验收集的许多数据都不是正态分布的,因此该学科非常依赖CLT来推断其统计数据。

α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

奇怪的是,样本量为20的正态分布数据中有65%被拒绝,而样本量为30的情况下,仍然有35%被拒绝。

然后,他们测试了使用Fleishman幂法创建的几个严重偏斜的分布:

ÿ=一种X+bX2+CX3+dX4

X表示从正态分布得出的值,而a,b,c和d是常数(请注意a = -c)。

他们进行了多达300个样本的测试

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

他们发现,在最大的歪斜度和峰度(1.75和3.75)下,样本数量为300不会产生遵循正态分布的样本。

不幸的是,我不认为这正是您想要的东西,但是我偶然发现了它,发现它很有趣,并认为您也可以。


4
奇怪的是,样本量为20的正态分布数据中有65%被拒绝了,即使样本量为30,仍然有35%的样本被拒绝了。 ”-听起来他们使用的测试是错误的;作为对完全指定的正常数据(测试所针对的)的正常性测试,如果他们使用得当,则必须准确
Glen_b-恢复莫妮卡

5
@Glen_b:这里有多个潜在错误源。如果您阅读该文档,则会注意到这里列出的“正常”实际上是正常随机变量,其均值50和标准差10均四舍五入到最接近的整数。因此,从这个意义上说,所使用的测试已经在使用不正确的发行版。其次,看起来它们仍然没有正确执行测试,因为我的复制尝试表明,对于使用20个此类观察值的样本均值,拒绝概率约为27%。(续)
红衣主教

5
(续)第三,不管采用哪种方法,某些软件都可能使用渐近分布,而不是实际分布,尽管在10K的样本量下,这并不太重要(如果不是在数据上人为地引入了联系)。最后,在该文档结尾处,我们发现以下相当奇怪的陈述:不幸的是,S-PLUS中的KS测试的属性限制了工作。本研究的p值均通过多次重复手工编制。需要一个程序来计算p值,并与选择的alpha级别相比对它们进行判断。
红衣主教

3
嗨@Glen_b 我认为四舍五入不会降低拒绝率,因为我相信他们正在使用四舍五入的数据对真实的标准正态分布进行测试(这就是我说的测试使用了错误指定的分布)。(也许您正考虑在离散分布上使用KS检验。)KS检验的样本量为10000,而不是20。他们进行了20次复制,每个样本大小为10000次,以获取表格。至少,这是我从略读文档时对描述的理解。
红衣主教

3
@cardinal-您是正确的,因此,在大样本量情况下,这可能是很大一部分拒绝的原因。回复:“ KS测试的样本量是10000,而不是20 ”……好吧,这听起来越来越奇怪。一个人想知道为什么他们会认为这些条件中的任何一个都具有很大的价值,而不是相反。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.