Answers:
有两个要测试的常规模型。第一个基于人口随机抽样的假设,通常称为“人口模型”。
例如,对于两个独立的样本t检验,我们假设我们要比较的两组是来自各个种群的随机样本。假设两组中分数的分布在人群中呈正态分布,那么我们可以通过分析得出检验统计量(即t统计量)的抽样分布。这个想法是,如果我们要重复此过程(从各自的总体中随机抽取两个样本)无限次(当然,我们实际上并没有这样做),我们将获得该抽样分布用于检验统计量。
另一种测试模型是“随机模型”。在这里,我们不必诉诸于随机抽样。相反,我们通过对样本进行排列来获得随机分布。
例如,对于t检验,您有两个样本(不一定通过随机抽样获得)。现在,如果这两组之间确实没有区别,那么特定的人实际上是“属于”组1还是组2是任意的。因此,我们可以做的是一次又一次地对组分配进行置换,每次都要注意两个组的均值相距多远。这样,我们凭经验获得采样分布。然后,我们可以比较两种均值在原始样本中相距多远(在开始重新组合成员资格之前),并且如果该差异是“极度的”(即落入经验派生的抽样分布的尾巴),那么我们可以得出结论该组成员身份不是任意的,并且两个组之间确实存在差异。
在许多情况下,这两种方法实际上得出相同的结论。从某种意义上说,基于总体模型的方法可以看作是对随机检验的近似。有趣的是,费舍尔(Fisher)是提出随机模型的人,并建议将其作为我们推论的基础(因为大多数样本不是通过随机抽样获得的)。
描述这两种方法之间差异的一篇不错的文章是:
医学博士恩斯特(2004)。排列方法:精确推断的基础。统计科学,19(4),676-685 (链接)。
另一篇文章提供了很好的总结,并建议随机化方法应作为我们推论的基础:
Ludbrook,J。和Dudley,H。(1998)。为什么在生物医学研究中置换检验优于t和F检验。美国统计学家,52(2),127-132 (链接)。
编辑:我还应该补充一点,使用随机方法时,与总体模型相同,通常计算出相同的检验统计量。因此,例如,为了测试两组之间均值的差异,一个人将计算该组成员资格所有可能排列的常规t统计量(在零假设下根据经验得出的抽样分布),然后再检查一个极端值原始组成员身份的t统计量在该分布下。