可以使用标准统计检验分析非随机样本吗?


24

许多临床研究都基于非随机样本。但是,大多数标准检验(例如t检验,ANOVA,线性回归,逻辑回归)均基于样本包含“随机数”的假设。如果通过标准测试分析了这些非随机样本,结果是否有效?谢谢。

Answers:


20

有两个要测试的常规模型。第一个基于人口随机抽样的假设,通常称为“人口模型”。

例如,对于两个独立的样本t检验,我们假设我们要比较的两组是来自各个种群的随机样本。假设两组中分数的分布在人群中呈正态分布,那么我们可以通过分析得出检验统计量(即t统计量)的抽样分布。这个想法是,如果我们要重复此过程(从各自的总体中随机抽取两个样本)无限次(当然,我们实际上并没有这样做),我们将获得该抽样分布用于检验统计量。

另一种测试模型是“随机模型”。在这里,我们不必诉诸于随机抽样。相反,我们通过对样本进行排列来获得随机分布。

例如,对于t检验,您有两个样本(不一定通过随机抽样获得)。现在,如果这两组之间确实没有区别,那么特定的人实际上是“属于”组1还是组2是任意的。因此,我们可以做的是一次又一次地对组分配进行置换,每次都要注意两个组的均值相距多远。这样,我们凭经验获得采样分布。然后,我们可以比较两种均值在原始样本中相距多远(在开始重新组合成员资格之前),并且如果该差异是“极度的”(即落入经验派生的抽样分布的尾巴),那么我们可以得出结论该组成员身份不是任意的,并且两个组之间确实存在差异。

在许多情况下,这两种方法实际上得出相同的结论。从某种意义上说,基于总体模型的方法可以看作是对随机检验的近似。有趣的是,费舍尔(Fisher)是提出随机模型的人,并建议将其作为我们推论的基础(因为大多数样本不是通过随机抽样获得的)。

描述这两种方法之间差异的一篇不错的文章是:

医学博士恩斯特(2004)。排列方法:精确推断的基础。统计科学,19(4),676-685 (链接)

另一篇文章提供了很好的总结,并建议随机化方法应作为我们推论的基础:

Ludbrook,J。和Dudley,H。(1998)。为什么在生物医学研究中置换检验优于t和F检验。美国统计学家,52(2),127-132 (链接)

编辑:我还应该补充一点,使用随机方法时,与总体模型相同,通常计算出相同的检验统计量。因此,例如,为了测试两组之间均值的差异,一个人将计算该组成员资格所有可能排列的常规t统计量(在零假设下根据经验得出的抽样分布),然后再检查一个极端值原始组成员身份的t统计量在该分布下。


8

您的问题很好,但是没有简单的答案。

像您提到的那些大多数测试都是基于样本是随机样本的假设,因为随机样本很可能代表抽样人群。如果假设无效,那么对结果的任何解释都必须考虑到这一点。如果样本不能代表总体,那么结果可能会产生误导。当样本尽管具有随机性但仍具有代表性时,结果将完全可以。

接下来的问题是询问在任何特定情况下如何确定非随机性是否重要。我不能回答那个;-)


5

您问的是一个非常笼统的问题,因此答案不一定适合所有情况。但是,我可以澄清一下。统计检验通常与观察到的分布与假设分布(所谓的零分布或零假设;或在某些情况下为替代分布)有关。样本可能是非随机的,但是所执行的测试适用于从样本获得的某些值。如果该变量可以具有某些随机属性,则将其分布与某些替代分布进行比较。那么重要的是,样本的检验统计量是否适用于其他一些感兴趣的人群,以及关于替代分布或零分布的假设是否与其他感兴趣的人群相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.