两组样本量小且不平衡-该怎么办?


10

我有两个组的数据(即样本),我想进行比较,但是总样本量很小(n = 29)并且严重不平衡(n = 22 vs n = 7)。

这些数据在逻辑上很难收集,而且费用昂贵,因此,“收集更多数据”作为一种明显的解决方案在这种情况下并没有帮助。

测量了许多不同的变量(出发日期,到达日期,迁移时间等),因此有多个测试,其中一些差异非常大(较小的样本具有较高的差异)。

最初,一位同事对这些数据进行了t检验,其中一些在统计学上具有显着性,P <0.001,而另一个在P = 0.069上不显着。一些样本是正态分布的,而其他样本则不是。一些测试涉及与“相等”方差的较大偏差。

我有几个问题:

  1. T检验在这里合适吗?如果没有,为什么?这仅适用于满足正态性和方差相等的假设的测试吗?
  2. 什么是合适的替代品?也许是排列测试?
  3. 不相等的方差会夸大类型I的错误,但是怎么办?小而不平衡的样本量对I型错误有什么影响?

Answers:


11

当两个总体的方差不同时,假设两个总体的方差相等的T检验无效,并且样本量不相等的情况更糟。如果最小的样本量是方差最大的样本,则测试将产生I型错误。另一方面,t检验的Welch-Satterthwaite版本没有假定均等的方差。如果您正在考虑Fisher-Pitman置换检验,那么它也假定方差相等(如果您想从低p值推断不相等的均值)。

您可能还需要考虑许多其他事项:

(1)如果方差明显不相等,您是否仍然对均值之间的差异感兴趣?

(2)效果估计可能比p值对您有用吗?

(3)您是否要考虑数据的多元性质,而不仅仅是进行一系列单变量比较?


您好Scortchi,谢谢您的答复。我考虑了您提出的问题:
DeanP

2
(1)方差和均值均可以为我们的研究提供信息(例如,一个人口的迁徙出发日期可能明显晚些,而出发日期的范围变化更大)。
DeanP

3
(1)之所以提到它,是因为人们经常将不均等的差异仅仅视为一个技术问题,而忘记了它本身就是一个有趣的事实。
Scortchi-恢复莫妮卡

2
(2)我的观点更多是,与具有置信区间的效应大小估计值列表(可能是均值,中位数,方差等)相比,p值列表通常没有用。尤其是对于小样本,置信区间可以显示即使p值很高,实际意义上的效应大小是否仍与数据一致。
Scortchi-恢复莫妮卡

2
(3)我在想一个自变量(组)和几个因变量(迁移时间c):组之间一个有趣的区别可能是因变量之间的关系发生了变化。第一步将是一个不错的矩阵,用箱线图或点图对沿对角线的组之间的每个dv进行比较,并对其他单元格中的每对dvs(再次区分组)进行散点图绘制。老实说,对于小样本量的探索性分析,这很可能是最后一步。
Scortchi-恢复莫妮卡

1

首先,正如Scortchi指出的那样,由于T检验对数据分布的假设,因此T检验不适用于您的数据。

关于您的第二点,我将提出T检验的替代方案。如果您的兴趣仅在于事实,则如果两个样本的分布相等或不相等,则还可以尝试使用Wilcoxon秩和检验的双面版本。Wilcoxon秩和检验是非参数检验。如果您不确定数据的基本分布,则这种测试特别有用。

它为小样本量和大样本量的测试提供了精确的解决方案。此外,还存在一个R包,可实现Wilcoxon秩和检验。

由于它是无参数测试,并且处理的样本量较小,因此该测试应非常适合您的测试用例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.