未配对t检验的最小样本量


16

是否有“规则”来确定t检验有效所需的最小样本量?

例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。

可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?


2
这个问题涵盖了相似的材料,并且将使该页面的浏览者感兴趣:t检验是否有效?
gung-恢复莫妮卡

另请参见此问题,其中讨论了使用更小的样本量进行的测试。
Glen_b-恢复莫妮卡2015年

Answers:


8

我建议在这里使用非参数Mann-Whitney U检验,而不要使用不成对的t检验。

t检验没有绝对的最小样本量,但是随着样本量的变小,对于假设两个样本均来自具有正态分布的总体的假设,该检验变得更加敏感。对于这么小的样本,尤其是只有两个的样本,您需要非常确定总体分布是正态的-并且必须基于外部知识,因为这样的小样本本身就提供的信息很少其分布的正态性或其他形式。但是您说“人口方差和分布未知”(斜体字)。

Mann-Whitney U检验不需要关于分布的参数形式的任何假设,仅需要假设在零假设下两组的分布相同。


6
对于极小的样本量,不是一个好的建议。对于7个样本和2个样本,无论组平均值之间的差异有多大,U检验都会失败。看看我的答案为例。
AlefSin 2014年

2
@AlefSin会说第二句话。如果得出有效的结论(不仅获得p值)对您很重要,那么可以做出更合理的假设就更好。如果有合理的背景信息,那么如果您在贝叶斯框架中进行分析,您还可以添加更多假设。
RasmusBååth2014年

2
一个问题是,由于样本量如此之小,Wilcoxon-Mann-Whitney无法达到典型的显着性水平。使用7和2的样本量,无论差异多么明显,您都永远不会获得5%的显着结果。考虑(1.018,1.031,1.027,1.020,1.021,1.019,1.024)与(713.2,714.5)-在5%的水平上不显着!
Glen_b-恢复莫妮卡2014年

3
就是说,如果一个人的n 2 = 2,那么就有一个很好的论据,那就是人们应该首先考虑5%的测试是否有意义。正确评估这两种错误类型的成本可能会导致完全不同的选择。n1=7n2=2
Glen_b-恢复莫妮卡2015年

6

(免责声明:我今天打字不太好:我的右手骨折了!)

与在其他答案中使用非参数检验的建议相反,您应该考虑到对于极小的样本量,这些方法不是很有用。原因很容易理解:在规模很小的研究中,除非观察到较大的效应量,否则无法确定组之间的差异。但是,非参数方法不关心组之间差异的大小。因此,即使两组之间的差异巨大,而样本量很小,非参数检验也将始终无法拒绝原假设。

考虑以下示例:两组,正态分布,相同方差。第一组:平均1.0,共7个样本。第2组:平均5、2个样本。平均值之间有很大差异。

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

计算得出的p值为0.05556,它不会拒绝原假设(在0.05时)。现在,即使您将两个均值之间的距离增加了10倍,您也会获得相同的p值:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

现在,我邀请您使用t检验重复相同的模拟,并观察差异大(平均5比1)和巨大(平均50比1)时的p值。


5

t检验没有最小样本量。t检验实际上是为小样本设计的。在过去打印表格时,您会看到非常小的样本(以df进行测量)的t-检验表格。

当然,与其他测试一样,如果样本量很小,则只有相当大的影响才具有统计学意义。


但是相反也会成为问题吗?即,可能恰好被采样的离群值导致错误地拒绝了原假设吗?还是低功率检测差异是一个更大的问题?在这种特殊情况下,我发现两种方法之间存在显着差异,但不知道“信任”多少。
约翰尼(Johnny)困惑

2
当n = 2时,您绝对容易受到异常值的影响-总体中的异常值;2个样本如何在样本中具有离群值?:-)在这种情况下,我不会尝试任何推论统计。获得“真相”的前景不佳,您将面临批评的自由。
rolando2 2012年

2
置信区间较大的原因恰恰是因为您可能会得到离群值。但是t检验仍然假设样本来自正常人群。
彼得·弗洛姆

2

我假设您的意思是,您来自一组的7个数据点和来自第二组的2个数据点,这两个都是人口子集(例如,男性的子集和女性的子集​​)。

可从此Wikipedia页面获得t检验的数学信息。我们将假设一个独立的两样本t检验,样本大小不相等(7比2),方差不相等,因此大约在该页面的一半处。您可以看到该计算基于均值和标准差。在一组中只有7个主题而在另一组中只有2个主题,您不能认为您对均值或标准差都有很好的估计。对于有2个主题的组,平均值仅是恰好位于两个数据点中间的值,因此无法很好地进行估算。对于具有7个对象的组,样本量会极大地影响方差(因此也会影响标准差,这是方差的平方根),因为当您拥有较小的样本时,极值会产生更强的影响。

例如,如果您在Wikipedia页面上查看标准差基本示例,则会看到标准差为2,因此方差(标准差的平方)为4。但是,如果我们只有前两个数据点(9和1),方差为10/2 = 5,标准偏差为2.2,如果我们只有最后两个值(4和16),则方差为20/2 = 10而标准偏差为3.2。我们仍在使用相同的值,只是其中的更少,我们可以看到对估计值的影响。

这就是在样本量较小的情况下使用推论统计的问题,抽样会严重影响您的结果。

更新:有什么原因不能简单地按主题报告结果并表明这是探索性的工作?在只有两个案例的情况下,数据与案例研究非常相似,并且这两个方面(1)对撰写非常重要,以及(2)公认的惯例。


谢谢米歇尔。这很有趣并且很有用。但是,从实用的角度来看,您有什么建议?在这种情况下,最好的处理方法是什么?谢谢!
约翰尼(Johnny)困惑

嗨约翰尼不解。如果没有更多有关您的实际情况的信息,我感到无法提供更多指导。
米歇尔(Michelle)2012年

需要什么样的信息?
约翰尼(Johnny)困惑

1
再次您好,有关您的研究设计的更多信息,例如数据是什么,如何收集,小组是什么,观察结果的选择方式。我所知道的是,您进行了一个实验,该实验有两组的9个观察值(人,大鼠,神经元,奶酪块或辐射频率)。
米歇尔(Michelle)2012年

假设使用MRI测量了人体内流向大脑白质的平均血液。这些组是对照组(7人)和年龄/性别相匹配的患有特定疾病的患者(2人)。
约翰尼(Johnny)困惑


0

我建议将您通过t检验和曼惠特尼检验获得的结论进行比较,并查看箱线图和每个总体均值的分布可能性。


嗨,@ Demian,我不确定当一组样本量为2时,即使是箱线图也将有所帮助。否则,是的,我认为尤其是箱线图对于可视化跨组的连续数据非常有帮助。
米歇尔(Michelle)2012年

0

Stata 13/SE code for a bootstrap ttest由于对小样本执行的ttest可能无法满足ttest要求(主要是从中抽取了两个样本的种群的正态性),因此,我建议在Efron B之后执行bootstrap ttest(方差不相等), Tibshirani Rj。引导简介。佛罗里达州Boca Raton:Chapman&Hall / CRC,1993:220-224。上图中报告了Johnny Puzzled在Stata 13 / SE中提供的数据上的引导ttest的代码。


您的答案存在严重的格式问题,您可以编辑吗?
变形虫说恢复莫妮卡2014年

我已经尝试在答案的审阅版本中解决格式问题。感谢变形虫指出这一点。
卡洛·拉扎罗

0

在样本数量为2的情况下,最好的办法是查看各个数字本身,甚至不用理会统计分析。


1
目前,这更像是评论。尽管这是一个好主意,但是对于合理地解决原始问题,即使最终得出结论认为做其他事情更有意义,也可以对问题本身进行一些讨论。
Glen_b-恢复莫妮卡2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.