应该引用哪些参考来支持使用30作为足够大的样本量?


41

我已经多次阅读/听说过,至少30个单位的样本大小被视为“大样本”(由于CLT等原因,均值的正态假设通常近似成立)。因此,在实验中,我通常会生成30个单位的样本。您能否给我一些使用30号样本时应引用的参考?


2
如果没有参考您尝试估算的参数数量,或者没有参考您正在使用的模型的类型,似乎很难给您一个明确的答案。
chl 2010年

2
任何统计技术都不能很好地支持接受n = 30作为大小样本的边界。
Jibol

Answers:


37

对于小样本和大样本之间的边界,选择n = 30仅是一个经验法则。有大量的书(大约)都引用了该值,例如,Hogg and Tanis的《概率与统计推断》(7e)说“大于25或30”。

就是说,这个故事告诉我,30被认为是一个很好的界限的唯一原因是因为它使课本后面漂亮的Student t表很好地适合了一页。这样,从df = 30到df =无穷大,临界值(在Student t和Normal之间)仅偏移大约0.25。对于手动计算,差异并不重要。

如今,很容易计算出各种东西的临界值,精确到小数点后15位。最重要的是,我们有重采样和置换方法,我们甚至不局限于参数化总体分布。

实际上,我从不依赖n =30。绘制数据。如果愿意,可以叠加正态分布。视觉评估正常近似是否合适(并询问是否真的需要近似)。如果必须生成用于研究的样本并且必须进行近似,则生成足够大的样本大小以使近似值尽可能接近所需(或尽可能接近计算上的可行性)。


13
这是有关n = 30时t分布的正态近似值的精确度的页面。 johndcook.com/normal_approx_to_t.html
John D. Cook 2010年

41

实际上,“幻数” 30是谬误。参见雅各布·科恩(Jacob Cohen)令人愉快的论文,《我学到的东西(到目前为止)》(Am。Psych。1990年12月45#12,第1304-1312页)。这个神话是他关于“您学到的一些东西并非如此”的第一个例子。

我的其他应聘者中有[一人]进行了论文,每组仅抽取20例。... [我]发现... 在成圣的两尾水平上,每组的两组独立平均值比较,出现中等大小效应的可能性通过t检验的显着性仅为。因此,即使实际上效果的大小是有意义的,还是将获得重大成果大约是一次硬币翻转。... [我的朋友]最终获得了不重要的结果-他随后着手拆除了精神分析理论的一个重要分支。n=30.05.47


2
美丽的参考-以及相关的现货。谢谢。
ub

1
@whuber你还记得那张纸吗?现在链接已断开。也许是psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf,“我学到的东西(到目前为止)”?年份与断开链接的URL中的年份匹配。
变形虫说莫妮卡(Monica)恢复职权

1
@Amoeba我阅读本文时将其保存了,因此可以确认您找到的是预期的。我已经更新了此答案,以在您的链接中添加引文。
ub

@Carlos Accioly由于上一个链接已断开,我已经用新链接更新了它。
Akshay Bansal

9

IMO,这完全取决于您要使用样本的目的。两个“傻”的例子来说明我的意思:如果您需要估计一个平均值,那么30个观察值就足够了。如果您需要使用100个预测变量来估计线性回归,那么30个观测值将不够接近。


9

主要是任意的经验法则。该陈述取决于许多因素是否成立。例如关于数据的分布。例如,如果数据来自柯西(Cauchy),则即使30 ^ 30个观测值也不足以估计均值(在这种情况下,即使无限数量的观测值也不足以导致收敛)。如果您绘制的值不是彼此独立的,则此数字(30)也为假(同样,无论样本大小如何,都可能根本没有收敛)。μ¯(n)

更一般而言,CLT基本上需要两个支柱来支撑:

  1. 随机变量是独立的:您可以重新排列观测值而不会丢失任何信息*。
  2. rv来自具有有限第二矩的分布:这意味着平均值和sd的经典估计量会随着样本量的增加而趋于收敛。

(这两种情况都可以在某种程度上减弱,但是差异主要是理论上的)


6
您的示例说明了可靠统计信息的价值。该样本中位数估计柯西分布的位置参数井。有人可能会说,在使用带有30个样本的t检验时,最薄弱的环节是t检验,而不是30个样本。
John D. Cook 2010年

1
约翰:“一个人可能会说,使用带有30个样本的t检验的最薄弱环节是t检验,而不是30个样本”。非常正确,也假设数据为iid。同样,中位数是Cauchy分布随机变量的MLE(因此很有效),但是通常您可能需要30多个观察值。
user603 2010年

1
并非CLT的所有版本都依赖于相同的分发,甚至都不依赖于独立性。教给本科生的基础知识通常会做,但是有些版本却不能同时做两个假设,例如Lyapunov CLT假设独立但分布不相同,并且独立条件也可以放宽,例如,请参见此处。这种“重新排序”的事情也与独立性不同。某些形式的依赖性不依赖顺序。
2013年

2
样本大小为50,000,不足以使CLT足够有效地计算对数正态分布平均值的置信区间。
弗兰克·哈雷尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.