Answers:
对于小样本和大样本之间的边界,选择n = 30仅是一个经验法则。有大量的书(大约)都引用了该值,例如,Hogg and Tanis的《概率与统计推断》(7e)说“大于25或30”。
就是说,这个故事告诉我,30被认为是一个很好的界限的唯一原因是因为它使课本后面漂亮的Student t表很好地适合了一页。这样,从df = 30到df =无穷大,临界值(在Student t和Normal之间)仅偏移大约0.25。对于手动计算,差异并不重要。
如今,很容易计算出各种东西的临界值,精确到小数点后15位。最重要的是,我们有重采样和置换方法,我们甚至不局限于参数化总体分布。
实际上,我从不依赖n =30。绘制数据。如果愿意,可以叠加正态分布。视觉评估正常近似是否合适(并询问是否真的需要近似)。如果必须生成用于研究的样本并且必须进行近似,则生成足够大的样本大小以使近似值尽可能接近所需(或尽可能接近计算上的可行性)。
实际上,“幻数” 30是谬误。参见雅各布·科恩(Jacob Cohen)令人愉快的论文,《我学到的东西(到目前为止)》(Am。Psych。1990年12月45#12,第1304-1312页)。这个神话是他关于“您学到的一些东西并非如此”的第一个例子。
我的其他应聘者中有[一人]进行了论文,每组仅抽取20例。... [我]发现... 在成圣的两尾水平上,每组的两组独立平均值比较,出现中等大小效应的可能性通过t检验的显着性仅为。因此,即使实际上效果的大小是有意义的,还是将获得重大成果大约是一次硬币翻转。... [我的朋友]最终获得了不重要的结果-他随后着手拆除了精神分析理论的一个重要分支。
主要是任意的经验法则。该陈述取决于许多因素是否成立。例如关于数据的分布。例如,如果数据来自柯西(Cauchy),则即使30 ^ 30个观测值也不足以估计均值(在这种情况下,即使无限数量的观测值也不足以导致收敛)。如果您绘制的值不是彼此独立的,则此数字(30)也为假(同样,无论样本大小如何,都可能根本没有收敛)。
更一般而言,CLT基本上需要两个支柱来支撑:
(这两种情况都可以在某种程度上减弱,但是差异主要是理论上的)