我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量?
该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。
我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量?
该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。
Answers:
没有最小样本数量的t检验有效。有效性要求测试统计的假设近似成立。这些假设是在一个样本情况下,数据为正态(或近似正态),在原假设下均值为0,方差未知,但可从样本中估算出。在两个样本的情况下,两个样本彼此独立,每个样本均由同态正态变量组成,两个样本均具有相同的均值,并且在零假设下具有相同的未知方差。统计使用汇总的方差估计量。
在一个样本情况下,原假设下的分布是中心t为n-1自由度的。在样本大小为n和m不一定相等的两个样本情况下,检验统计量的零分布为t,其自由度为n + m-2。由于自由度低(对应于低样本量)而尾部较重的分布会导致由于样本量较小而增加的可变性。因此,对于任何样本量(至少至少为2或更大),检验统计量的关键值都具有给定的显着性水平。
样本量少的问题在于测试的功效。审阅者可能已经感觉到,每组15个样本的规模不够大,不足以具有检测两个样本均值之间的有意义差值(例如,一个样本问题的绝对值的平均值大于绝对值的平均值)的高功效。需要40将需要以n等于40但不小于40的特定增量确定特定功率。
我应该补充一点,要进行t检验,样本必须足够大以估计一个或多个方差。
尽一切尊敬他,他不知道自己在说什么。t检验旨在处理小样本。确实没有最低要求(对于一次样本t检验,IDK也许可以说最低为3),但是您确实担心功率小样本。当可能的样本量受到严格限制时(如您的情况),您可能有兴趣阅读折衷功效分析背后的想法。
至于证明您可以对小样本使用t检验的参考资料,我不知道一个,并且我怀疑是否存在。为什么会有人试图证明这一点?这个想法很愚蠢。
如现有答案所述,样本量小的主要问题是统计功效低。关于可接受的统计能力有各种经验法则。有人说80%的统计能力是合理的,但最终,越多越好。在获得更多参与者的成本与获得更多统计能力的收益之间,通常也需要权衡取舍。
您可以使用R中的一个简单函数来评估被测物的统计功效, power.t.test
。
p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')
round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)
[,1]
p.2 0.11
p.5 0.44
p.8 0.82
因此,我们可以看到,如果人口效应的大小为“小”或“中”,那么您的统计功效将较低(即分别为11%和44%)。但是,如果人群中的效应量很大,您将拥有某些人所说的“合理”功效(即82%)。
Quick-r网站提供了有关使用R进行功率分析的更多信息。
如果两个样本是来自正态分布且具有相同方差的独立简单随机样本,并且每个样本大小至少为两个(以便可以估计总体方差),则两次样本t检验有效。与测试的有效性问题无关。根据一个人希望检测到的效应的大小,小样本量可能是不明智的,但小样本量不会使测试无效。还要注意,对于任何样本量,如果父分布为正态,则均值的采样分布为正态。当然,较大的样本量总是更好,因为它们可以提供更精确的参数估计。中心极限定理告诉我们,样本均值比单个值更呈正态分布,但正如Casella和Berger指出的那样,它的用处有限,因为对于任何特定情况,都必须检查接近常态的速率。依靠经验法则是不明智的。查看结果报告了Rand Wilcox的书。
考虑Sauro,J.和Lewis,JR(2016)的254-256页中的以下内容。量化用户体验:用户研究的实用统计资料,第二版。马萨诸塞州剑桥市:Morgan-Kaufmann(您可以在https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/中查看)。
您是否需要测试至少30位用户?
一只手
我们大多数参加过入门统计学课(或认识过此类课的人)的人都听说过经验法则,即估计或比较均值时,您的样本量应至少为30。根据中心极限定理,随着样本量的增加,均值的分布变得越来越正态,而与基础分布的正态性无关。一些模拟研究表明,对于各种各样的分布(但不是全部,请参见Bradley,1978),当n = 30时,平均值的分布变得接近正态。
另一个考虑因素是,使用z分数比t分数要简单一些,因为z分数不需要使用自由度。如表9.1和图9.2所示,当您拥有约30个自由度时,t的值将非常接近z的值。因此,可能会有一种感觉,您不必处理需要小样本统计的小样本(Cohen,1990)。...
另一方面
当样本的成本很高时,就像在许多类型的用户研究中(例如,适度的可用性测试)通常如此,重要的是,在了解样本量的前提下,尽可能准确地估计所需样本量。对于给定的一组情况,30是正确样本的可能性很小。如我们有关样本量估计的各章所示,一种更合适的方法是采用公式来计算统计检验的显着性水平,然后使用代数求解n,将其转换为样本量估计公式。然后,这些公式将针对您在给定情况下需要了解或估算的内容提供特定的指导,以估算所需的样本量。
即使使用t分布(相对于z分布),您也需要样本数量至少为30,这一想法与分布的发展历史并不一致。1899年,威廉·S·戈塞特(William S. Gossett)是牛津新学院新近获得化学和数学学位的毕业生,成为加入吉尼斯啤酒厂的第一批科学家之一。“与当时的巨人相比,他出版的书很少,但他的贡献至关重要。……酿造过程的性质及其温度和成分的可变性,意味着从长远来看不可能采集大样品”(Cowles,1989,第108-109页)。
这意味着Gossett不能在他的工作中使用z得分,因为它们不能很好地处理小样本。在分析了带有小样本的统计检验的z分布的缺陷之后,由于吉尼斯禁止出版的政策,他根据自由度的函数进行了必要的调整以产生t表,并以化名“ Student”发布了该表。由员工(萨尔斯堡,2001年)。在导致表格出版的工作中,Gossett进行了蒙特卡洛模拟的早期版本(Stigler,1999)。他准备了3000张标有对罪犯的身体测量结果的卡片,将它们洗净,然后将它们分成750组4级-样本量远小于30组。
我们的建议
这一争议类似于第6章中讨论的“五个就足够”与“八个还不够”的论点,但是它适用于总结性研究而不是形成性研究。对于任何研究,要测试的用户数量取决于测试的目的和您计划收集的数据类型。“魔术数” 30具有一些经验依据,但是在我们看来,它非常薄弱。从本书的大量示例中可以看出,示例数量不等于30(有时更少,有时更多),我们并不十分重视这个经验法则。如我们用于汇总研究的样本量一章所述,研究的适当样本量取决于分布类型,数据的预期变异性,所需的置信度和功效,
如图9.2所示,当将t分布用于非常小的样本(例如自由度小于5)时,关于控制I型误差,t的非常大的值将补偿小的样本大小(声称差异很重要,而实际上并非如此)。在样本量如此小的情况下,您的置信区间将比在较大样本下的置信区间宽得多。但是一旦您处理超过5个自由度,z值和t值之间的绝对差值就很小。从t到z的角度来看,超过10个自由度几乎没有增益。
使用t分布并不比使用z分布复杂得多(您只需要确保对自由度使用正确的值即可),并且开发t分布的原因是:能够分析少量样品。这只是可用性从业者从啤酒酿造的科学和实践中受益的不太明显的方式之一。统计历史学家普遍认为,Gossett出版的Student t检验是具有里程碑意义的事件(Box,1984; Cowles,1989; Stigler,1999)。戈塞特在致罗纳德·费舍尔(Ronald A. Fisher)(现代统计之父之一)的信中载有t表的早期副本,他说:“您可能是唯一会使用它们的人”(Box,1978年)。戈塞特(Gossett)做了很多正确的事,但他当然错了。
参考资料
Box,GEP(1984)。实践在统计发展中的重要性。Technometrics,26(1),1-8。
Box,JF(1978)。费舍尔,科学家的一生。纽约,纽约:约翰·威利(John Wiley)。
布拉德利,合资(1978)。坚固?英国数学和统计心理学杂志,第31卷,第144-152页。
Cohen,J。(1990)。我学到的东西(到目前为止)。美国心理学家,45(12),1304-1312。
Cowles,M.(1989)。心理学中的统计学:历史观点。新泽西州希尔斯代尔:劳伦斯·埃尔鲍姆。
Salsburg,D.(2001)。女士品尝茶:在20世纪,统计学如何革新了科学。纽约,纽约:WH Freeman。
Stigler,SM(1999)。桌上的统计数据:统计概念和方法的历史记录。马萨诸塞州剑桥市:哈佛大学出版社。
Czarina可能会发现将她的参数t检验的结果与自举t检验获得的结果进行比较可能很有趣。以下针对Stata 13/1的代码模仿了一个虚拟示例,该示例涉及方差不相等的两个样本t检验(参数t检验:p值= 0.1493;自举t检验:p值= 0.1543)。
set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value
有两种不同的方法可以证明t检验的合理性。
如果有两种情况都成立,则t检验被认为是有效的检验。因此,如果您愿意假设您的数据是正态分布的(许多收集小样本的研究人员都是这样),那么您就不必担心。
但是,有人可能会合理地反对您依赖此假设来获得结果,尤其是在已知您的数据不正确的情况下。然后,有效推断所需的样本量问题是一个非常合理的问题。
至于需要多大的样本量,不幸的是,这还没有真正的可靠答案。数据偏斜越多,使近似值合理所需的样本量就越大。通常认为每组15-20大是合理的,但是根据大多数经验法则,存在反例:例如,在彩票返还中(例如,在10,000,000个观察中有1个是极端值)在进行这些测试之前大约需要进行1亿次观察。
我同意升压t检验的用处。作为比较,我还建议您查看一下Kruschke在http://www.indiana.edu/~kruschke/BEST/BEST.pdf上提供的贝叶斯方法。通常,有关“多少科目?”的问题 除非您已掌握有效效果的大小,否则无法回答要解决的问题。也就是说,例如,如果该测试是关于新药功效的假设研究,则与美国食品药品监督管理局相比,效果量可能是证明新药合理性所需的最小量。
在本次讨论中以及在其他许多讨论中,奇怪的是,人们普遍认为某些数据只是具有一定的理论分布,例如成为高斯。首先,即使样本量很小,我们也无需进行检查。其次,为什么要假定任何特定的理论分布呢?为什么不仅仅将数据作为自身的经验分布呢?
当然,在小样本量的情况下,假设数据来自某种分布对于分析非常有用。但是,换句话说,布拉德利·埃夫隆(Bradley Efron),您仅构成了无限量的数据。如果您的问题适当,有时可以没问题。有时候不是。