是否有“规则”来确定t检验有效所需的最小样本量?
例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。
可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?
是否有“规则”来确定t检验有效所需的最小样本量?
例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。
可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?
Answers:
我建议在这里使用非参数Mann-Whitney U检验,而不要使用不成对的t检验。
t检验没有绝对的最小样本量,但是随着样本量的变小,对于假设两个样本均来自具有正态分布的总体的假设,该检验变得更加敏感。对于这么小的样本,尤其是只有两个的样本,您需要非常确定总体分布是正态的-并且必须基于外部知识,因为这样的小样本本身就提供的信息很少其分布的正态性或其他形式。但是您说“人口方差和分布未知”(斜体字)。
Mann-Whitney U检验不需要关于分布的参数形式的任何假设,仅需要假设在零假设下两组的分布相同。
(免责声明:我今天打字不太好:我的右手骨折了!)
与在其他答案中使用非参数检验的建议相反,您应该考虑到对于极小的样本量,这些方法不是很有用。原因很容易理解:在规模很小的研究中,除非观察到较大的效应量,否则无法确定组之间的差异。但是,非参数方法不关心组之间差异的大小。因此,即使两组之间的差异巨大,而样本量很小,非参数检验也将始终无法拒绝原假设。
考虑以下示例:两组,正态分布,相同方差。第一组:平均1.0,共7个样本。第2组:平均5、2个样本。平均值之间有很大差异。
wilcox.test(rnorm(7, 1), rnorm(2, 5))
Wilcoxon rank sum test
data: rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556
计算得出的p值为0.05556,它不会拒绝原假设(在0.05时)。现在,即使您将两个均值之间的距离增加了10倍,您也会获得相同的p值:
wilcox.test(rnorm(7, 1), rnorm(2, 50))
Wilcoxon rank sum test
data: rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556
现在,我邀请您使用t检验重复相同的模拟,并观察差异大(平均5比1)和巨大(平均50比1)时的p值。
t检验没有最小样本量。t检验实际上是为小样本设计的。在过去打印表格时,您会看到非常小的样本(以df进行测量)的t-检验表格。
当然,与其他测试一样,如果样本量很小,则只有相当大的影响才具有统计学意义。
我假设您的意思是,您来自一组的7个数据点和来自第二组的2个数据点,这两个都是人口子集(例如,男性的子集和女性的子集)。
可从此Wikipedia页面获得t检验的数学信息。我们将假设一个独立的两样本t检验,样本大小不相等(7比2),方差不相等,因此大约在该页面的一半处。您可以看到该计算基于均值和标准差。在一组中只有7个主题而在另一组中只有2个主题,您不能认为您对均值或标准差都有很好的估计。对于有2个主题的组,平均值仅是恰好位于两个数据点中间的值,因此无法很好地进行估算。对于具有7个对象的组,样本量会极大地影响方差(因此也会影响标准差,这是方差的平方根),因为当您拥有较小的样本时,极值会产生更强的影响。
例如,如果您在Wikipedia页面上查看标准差的基本示例,则会看到标准差为2,因此方差(标准差的平方)为4。但是,如果我们只有前两个数据点(9和1),方差为10/2 = 5,标准偏差为2.2,如果我们只有最后两个值(4和16),则方差为20/2 = 10而标准偏差为3.2。我们仍在使用相同的值,只是其中的更少,我们可以看到对估计值的影响。
这就是在样本量较小的情况下使用推论统计的问题,抽样会严重影响您的结果。
更新:有什么原因不能简单地按主题报告结果并表明这是探索性的工作?在只有两个案例的情况下,数据与案例研究非常相似,并且这两个方面(1)对撰写非常重要,以及(2)公认的惯例。
有趣的相关文章:“以极小的samlpe尺寸使用学生的t检验” JCF de Winter(在实践评估,研究和评估中)http://goo.gl/ZAUmGW
我建议将您通过t检验和曼惠特尼检验获得的结论进行比较,并查看箱线图和每个总体均值的分布可能性。
由于对小样本执行的ttest可能无法满足ttest要求(主要是从中抽取了两个样本的种群的正态性),因此,我建议在Efron B之后执行bootstrap ttest(方差不相等), Tibshirani Rj。引导简介。佛罗里达州Boca Raton:Chapman&Hall / CRC,1993:220-224。上图中报告了Johnny Puzzled在Stata 13 / SE中提供的数据上的引导ttest的代码。
在样本数量为2的情况下,最好的办法是查看各个数字本身,甚至不用理会统计分析。