7
如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon
某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下? 许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。 另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。ñnn 对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。ñnn 选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题: 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全? 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。ñnn 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。ñnn 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。 考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)? 有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。