t检验有效需要最小样本量吗？

70

我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少，我的样本量只有15个，只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗？如果是这样，我在哪里可以获得文章或书籍来支持这么小的样本量？

该论文上周一已被辩护，一个小组要求提供支持性参考，因为我的样本量太小。他说应该至少有40位受访者。

— Czarina Francoise
source

4

如果假设成立的话，样本数量可以大大小于15。t分布的有效性是他建议使用更大样本的唯一原因吗？

— Glen_b 2012年

为了明确起见，您要执行哪种t检验：一个样本，成对样本或两个样本。

— Jeromy Anglim

26

从历史上看，t检验的第一个演示（在“ Student” 1908年的论文中）是用于四号样本量的。确实，获得了改善的结果小样本是该测试的名声：一旦样本量达到40个左右，t检验与研究人员在整个19世纪一直使用的z检验并无本质区别。您可以与小组成员共享本文的现代版本：york.ac.uk/depts/maths/histstat/student.pdf。指出第六节第14-18页中的调查。

— ub

10

但是您应该考虑这样一个事实，即小样本（例如4个）有效，因为Student拥有高质量的数据：化学实验室数据，实验，而不是准实验。您的主要问题不是样本量，而是代表性：您如何知道您的数据可以代表任何东西？

— kjetil b halvorsen 2012年

10

@CzarinaFrancoise为什么我们要限制自己小于10岁的科学？

— RioRaider 2012年

56

没有最小样本数量的t检验有效。有效性要求测试统计的假设近似成立。这些假设是在一个样本情况下，数据为正态（或近似正态），在原假设下均值为0，方差未知，但可从样本中估算出。在两个样本的情况下，两个样本彼此独立，每个样本均由同态正态变量组成，两个样本均具有相同的均值，并且在零假设下具有相同的未知方差。统计使用汇总的方差估计量。

在一个样本情况下，原假设下的分布是中心t为n-1自由度的。在样本大小为n和m不一定相等的两个样本情况下，检验统计量的零分布为t，其自由度为n + m-2。由于自由度低（对应于低样本量）而尾部较重的分布会导致由于样本量较小而增加的可变性。因此，对于任何样本量（至少至少为2或更大），检验统计量的关键值都具有给定的显着性水平。

样本量少的问题在于测试的功效。审阅者可能已经感觉到，每组15个样本的规模不够大，不足以具有检测两个样本均值之间的有意义差值（例如，一个样本问题的绝对值的平均值大于绝对值的平均值）的高功效。需要40将需要以n等于40但不小于40的特定增量确定特定功率。

我应该补充一点，要进行t检验，样本必须足够大以估计一个或多个方差。

— 迈克尔·切尼克
source

2

但是重要的一点是，即使样本量足够大，即使数据不是很正常，测试仍然有效。证明的理由有点复杂（Slutsky定理+ t分布接近正态），并且在z检验中使用的证明只是在较小样本中更为保守。但重要的一点是，如果我们怀疑存在非正态性，那么大样本可以拯救我们！

— 悬崖AB

1

@CliffAB通过“有效”，我假设您的意思是“具有大约正确的显着性水平，限制为n \ to \ infty”。但是通常人们关心的不仅仅是I型错误率（尤其是当它可能仅合理接近可能大于手头大小的样本时）。渐近相对效率确实确实很差，因此即使选择I型错误率达到应有的水平，与其他选择相比，抵抗大样本小影响的功效也可能非常差

— 。.– Glen_b

33

尽一切尊敬他，他不知道自己在说什么。t检验旨在处理小样本。确实没有最低要求（对于一次样本t检验，IDK也许可以说最低为3），但是您确实担心功率小样本。当可能的样本量受到严格限制时（如您的情况），您可能有兴趣阅读折衷功效分析背后的想法。

至于证明您可以对小样本使用t检验的参考资料，我不知道一个，并且我怀疑是否存在。为什么会有人试图证明这一点？这个想法很愚蠢。

— ung
source

6

+1（致您和Michael）。有趣的是，如果愿意做出一组假设，您甚至不需要两个观察就可以进行推断！

— Andy W

4

在小样本中进行t检验的原因是，即使在标准偏差未知的情况下即使样本正常，通常要做的事情也要通过除以标准偏差的样本估计值来进行归一化。在大样本中，估计值将足够接近总体标准偏差，以使检验统计量近似于标准正态，但在小样本中，其尾部将比正常重。

— Michael Chernick 2012年

5

具有n-1个自由度的t分布是零假设下任何样本大小n的精确分布，在小样本中，需要使用它来代替不能很好近似的法线。正如我和我所说的，样本量的真正问题是功耗。如果您想与裁判争辩说15就足够了，那么您需要确定需要多少差异才能被认为是有意义的（我提到的差值），然后对于该差值，您需要证明功效是足够的，例如0.80或更高。

— Michael Chernick 2012年

2

@CzarinaFrancoise关于n> = 30，请参阅stats.stackexchange.com/questions/2541/…–史黛芬洛朗

— StéphaneLaurent）

2

@gung学生的原始论文（1908！）证明您可以对小样本使用t检验。（有关此内容的更多信息，请参阅我对原始问题的扩展评论。）

— 麻烦

30

如现有答案所述，样本量小的主要问题是统计功效低。关于可接受的统计能力有各种经验法则。有人说80％的统计能力是合理的，但最终，越多越好。在获得更多参与者的成本与获得更多统计能力的收益之间，通常也需要权衡取舍。

您可以使用R中的一个简单函数来评估被测物的统计功效， power.t.test。

$\alpha=.05$

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

因此，我们可以看到，如果人口效应的大小为“小”或“中”，那么您的统计功效将较低（即分别为11％和44％）。但是，如果人群中的效应量很大，您将拥有某些人所说的“合理”功效（即82％）。

Quick-r网站提供了有关使用R进行功率分析的更多信息。

— 杰罗米·安格利姆
source

好答案！还有一个称为G * Power的用于计算统计功效的优秀软件。

— 恩里克

7

如果两个样本是来自正态分布且具有相同方差的独立简单随机样本，并且每个样本大小至少为两个（以便可以估计总体方差），则两次样本t检验有效。与测试的有效性问题无关。根据一个人希望检测到的效应的大小，小样本量可能是不明智的，但小样本量不会使测试无效。还要注意，对于任何样本量，如果父分布为正态，则均值的采样分布为正态。当然，较大的样本量总是更好，因为它们可以提供更精确的参数估计。中心极限定理告诉我们，样本均值比单个值更呈正态分布，但正如Casella和Berger指出的那样，它的用处有限，因为对于任何特定情况，都必须检查接近常态的速率。依靠经验法则是不明智的。查看结果报告了Rand Wilcox的书。

— 威廉·斯图尔特
source

5

尽管t分布确实考虑了样本量较小的事实，但我假设您的裁判在考虑只有少量样本的情况下难以确定总体呈正态分布的困难。对于大小为15的样本，这可能不是一个大问题，因为样本希望大到足以显示出模糊正态分布的迹象？如果这是真的，那么希望总体也接近常态，并结合中心极限定理，应该为您提供样本，表现良好。

但是我对将t检验用于微小样本（例如四号样本）的建议感到怀疑，除非可以通过一些外部信息或机械理解来确定总体的正态性？在大小为4的样本中，肯定没有足够的信息来提供有关人口分布形状的任何线索。

— 只有我
source

5

考虑Sauro，J.和Lewis，JR（2016）的254-256页中的以下内容。量化用户体验：用户研究的实用统计资料，第二版。马萨诸塞州剑桥市：Morgan-Kaufmann（您可以在https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/中查看）。

您是否需要测试至少30位用户？

一只手

我们大多数参加过入门统计学课（或认识过此类课的人）的人都听说过经验法则，即估计或比较均值时，您的样本量应至少为30。根据中心极限定理，随着样本量的增加，均值的分布变得越来越正态，而与基础分布的正态性无关。一些模拟研究表明，对于各种各样的分布（但不是全部，请参见Bradley，1978），当n = 30时，平均值的分布变得接近正态。

另一个考虑因素是，使用z分数比t分数要简单一些，因为z分数不需要使用自由度。如表9.1和图9.2所示，当您拥有约30个自由度时，t的值将非常接近z的值。因此，可能会有一种感觉，您不必处理需要小样本统计的小样本（Cohen，1990）。...

另一方面

当样本的成本很高时，就像在许多类型的用户研究中（例如，适度的可用性测试）通常如此，重要的是，在了解样本量的前提下，尽可能准确地估计所需样本量。对于给定的一组情况，30是正确样本的可能性很小。如我们有关样本量估计的各章所示，一种更合适的方法是采用公式来计算统计检验的显着性水平，然后使用代数求解n，将其转换为样本量估计公式。然后，这些公式将针对您在给定情况下需要了解或估算的内容提供特定的指导，以估算所需的样本量。

即使使用t分布（相对于z分布），您也需要样本数量至少为30，这一想法与分布的发展历史并不一致。1899年，威廉·S·戈塞特（William S. Gossett）是牛津新学院新近获得化学和数学学位的毕业生，成为加入吉尼斯啤酒厂的第一批科学家之一。“与当时的巨人相比，他出版的书很少，但他的贡献至关重要。……酿造过程的性质及其温度和成分的可变性，意味着从长远来看不可能采集大样品”（Cowles，1989，第108-109页）。

这意味着Gossett不能在他的工作中使用z得分，因为它们不能很好地处理小样本。在分析了带有小样本的统计检验的z分布的缺陷之后，由于吉尼斯禁止出版的政策，他根据自由度的函数进行了必要的调整以产生t表，并以化名“ Student”发布了该表。由员工（萨尔斯堡，2001年）。在导致表格出版的工作中，Gossett进行了蒙特卡洛模拟的早期版本（Stigler，1999）。他准备了3000张标有对罪犯的身体测量结果的卡片，将它们洗净，然后将它们分成750组4级-样本量远小于30组。

我们的建议

这一争议类似于第6章中讨论的“五个就足够”与“八个还不够”的论点，但是它适用于总结性研究而不是形成性研究。对于任何研究，要测试的用户数量取决于测试的目的和您计划收集的数据类型。“魔术数” 30具有一些经验依据，但是在我们看来，它非常薄弱。从本书的大量示例中可以看出，示例数量不等于30（有时更少，有时更多），我们并不十分重视这个经验法则。如我们用于汇总研究的样本量一章所述，研究的适当样本量取决于分布类型，数据的预期变异性，所需的置信度和功效，

如图9.2所示，当将t分布用于非常小的样本（例如自由度小于5）时，关于控制I型误差，t的非常大的值将补偿小的样本大小（声称差异很重要，而实际上并非如此）。在样本量如此小的情况下，您的置信区间将比在较大样本下的置信区间宽得多。但是一旦您处理超过5个自由度，z值和t值之间的绝对差值就很小。从t到z的角度来看，超过10个自由度几乎没有增益。

使用t分布并不比使用z分布复杂得多（您只需要确保对自由度使用正确的值即可），并且开发t分布的原因是：能够分析少量样品。这只是可用性从业者从啤酒酿造的科学和实践中受益的不太明显的方式之一。统计历史学家普遍认为，Gossett出版的Student t检验是具有里程碑意义的事件（Box，1984； Cowles，1989； Stigler，1999）。戈塞特在致罗纳德·费舍尔（Ronald A. Fisher）（现代统计之父之一）的信中载有t表的早期副本，他说：“您可能是唯一会使用它们的人”（Box，1978年）。戈塞特（Gossett）做了很多正确的事，但他当然错了。

参考资料

Box，GEP（1984）。实践在统计发展中的重要性。Technometrics，26（1），1-8。

Box，JF（1978）。费舍尔，科学家的一生。纽约，纽约：约翰·威利（John Wiley）。

布拉德利，合资（1978）。坚固？英国数学和统计心理学杂志，第31卷，第144-152页。

Cohen，J。（1990）。我学到的东西（到目前为止）。美国心理学家，45（12），1304-1312。

Cowles，M.（1989）。心理学中的统计学：历史观点。新泽西州希尔斯代尔：劳伦斯·埃尔鲍姆。

Salsburg，D.（2001）。女士品尝茶：在20世纪，统计学如何革新了科学。纽约，纽约：WH Freeman。

Stigler，SM（1999）。桌上的统计数据：统计概念和方法的历史记录。马萨诸塞州剑桥市：哈佛大学出版社。

— 吉姆·刘易斯
source

3

Czarina可能会发现将她的参数t检验的结果与自举t检验获得的结果进行比较可能很有趣。以下针对Stata 13/1的代码模仿了一个虚拟示例，该示例涉及方差不相等的两个样本t检验（参数t检验：p值= 0.1493；自举t检验：p值= 0.1543）。

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

— 卡洛·拉扎罗（Carlo Lazzaro）
source

3

有两种不同的方法可以证明t检验的合理性。

您的数据是正态分布的，每组至少有两个样本
每个组中都有大量样本

如果有两种情况都成立，则t检验被认为是有效的检验。因此，如果您愿意假设您的数据是正态分布的（许多收集小样本的研究人员都是这样），那么您就不必担心。

但是，有人可能会合理地反对您依赖此假设来获得结果，尤其是在已知您的数据不正确的情况下。然后，有效推断所需的样本量问题是一个非常合理的问题。

至于需要多大的样本量，不幸的是，这还没有真正的可靠答案。数据偏斜越多，使近似值合理所需的样本量就越大。通常认为每组15-20大是合理的，但是根据大多数经验法则，存在反例：例如，在彩票返还中（例如，在10,000,000个观察中有1个是极端值）在进行这些测试之前大约需要进行1亿次观察。

— 悬崖AB
source

1

我同意升压t检验的用处。作为比较，我还建议您查看一下Kruschke在http://www.indiana.edu/~kruschke/BEST/BEST.pdf上提供的贝叶斯方法。通常，有关“多少科目？”的问题除非您已掌握有效效果的大小，否则无法回答要解决的问题。也就是说，例如，如果该测试是关于新药功效的假设研究，则与美国食品药品监督管理局相比，效果量可能是证明新药合理性所需的最小量。

在本次讨论中以及在其他许多讨论中，奇怪的是，人们普遍认为某些数据只是具有一定的理论分布，例如成为高斯。首先，即使样本量很小，我们也无需进行检查。其次，为什么要假定任何特定的理论分布呢？为什么不仅仅将数据作为自身的经验分布呢？

当然，在小样本量的情况下，假设数据来自某种分布对于分析非常有用。但是，换句话说，布拉德利·埃夫隆（Bradley Efron），您仅构成了无限量的数据。如果您的问题适当，有时可以没问题。有时候不是。

— 扬·加尔科夫斯基
source

1

就两个样本情况而言，假设都是假设的。这是因为两个样本彼此独立，并且每个样本都由同态正态变量组成，两个样本在零假设下均具有相同的均值和共同的未知方差。

还存在利用Satterwaite近似法计算标准误差的Welch t检验。假设方差不相等，这是2个样本t检验。

韦尔奇t检验

— 犰狳
source