有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似。
我知道这还不够所有发行版。
我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。
我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似。
我知道这还不够所有发行版。
我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。
我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。
Answers:
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似。
这个通用的经验法则几乎完全没有用。对于n = 2的非正态分布,可以做的很好;对于大得多的非正态分布,则是不足够的-因此,在没有明确限制情况的情况下,该规则具有误导性。无论如何,即使是正确的情况,所需的n也会根据您的操作而变化。通常,您会在较小n的分布中心附近获得良好的近似值,但需要大得多的n才能在尾部获得良好的近似值。
编辑:请参阅该问题的答案,以获取关于该问题的众多但显然是一致的意见,以及一些良好的链接。不过,我不会在意这一点,因为您已经很清楚了。
我想看一些分布示例,即使样本量很大(可能是100或1000或更大),样本均值的分布仍然相当偏斜。
例子相对容易构建。一种简单的方法是找到一个非正态的无限整除分布并将其分解。如果您有一个在求平均值或求和时接近法线的法线,请从“接近法线”的边界开始,并根据需要进行尽可能多的划分。因此,例如:
考虑形状参数为的Gamma分布。将比例设为1(比例无关紧要)。比方说,你把伽玛(α 0,1 )为只是“正常的充分”。然后,你需要得到1000个观测到足够正常分布具有伽玛(α 0 / 1000 ,1 )分布。
因此,如果您认为的伽玛就足够“正常”了-
然后将除以1000,得到α = 0.02:
其中平均1000个将具有第一个pdf的形状(但没有其比例)。
@whuber关于受污染的分布的观点是一个很好的观点;可能需要在这种情况下尝试一些模拟,看看在许多此类样本中情况如何。
您可能会发现本文很有帮助(或至少很有趣):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
UMass的研究人员实际上进行了一项与您所要求的类似的研究。由于CLT,某些分布的数据是否遵循正态分布?显然,为心理学实验收集的许多数据都不是正态分布的,因此该学科非常依赖CLT来推断其统计数据。
Table 2. Percentage of replications that departed normality based on the KS-test.
Sample Size
5 10 15 20 25 30
Normal 100 95 70 65 60 35
Uniform 100 100 100 100 100 95
Bimodal 100 100 100 75 85 50
奇怪的是,样本量为20的正态分布数据中有65%被拒绝,而样本量为30的情况下,仍然有35%被拒绝。
然后,他们测试了使用Fleishman幂法创建的几个严重偏斜的分布:
X表示从正态分布得出的值,而a,b,c和d是常数(请注意a = -c)。
他们进行了多达300个样本的测试
Skew Kurt A B C D
1.75 3.75 -0.399 0.930 0.399 -0.036
1.50 3.75 -0.221 0.866 0.221 0.027
1.25 3.75 -0.161 0.819 0.161 0.049
1.00 3.75 -0.119 0.789 0.119 0.062
他们发现,在最大的歪斜度和峰度(1.75和3.75)下,样本数量为300不会产生遵循正态分布的样本。
不幸的是,我不认为这正是您想要的东西,但是我偶然发现了它,发现它很有趣,并认为您也可以。