进行统计检验以判断两个样本是否来自同一种群?


30

假设我有两个样本。如果我想告诉他们是否来自不同人群,我可以进行t检验。但是,假设我要测试样本是否来自同一人群。如何做到这一点?也就是说,如何计算这两个样本是从同一总体中提取的统计概率?


1
请尽可能定量地解释“相同”的含义。这也将有助于弄清您所说的“条件”的含义。
whuber

像两个样本的Kolmogorov-Smirnov一样的测试(不是唯一的可能性;按照通常的假设,t检验正在测试同一件事,正如您所注意到的那样)可以检验总体分布是否不同(但拒绝失败并不能)。并不意味着它们实际上是相同的)。但是,没有任何测试可以告诉您两个不太相似的分布实际上是否来自同一总体,而不是来自具有相似分布的两个不同总体。那将必须来自假设或其他调查。... ctd
Glen_b-恢复莫妮卡2014年

3
ctd ...类似地,测试甚至无法告诉您分布是相同的,因为它们之间的差异可能很小。您可能要搜索“等效性测试”或“等效性测试”,您应该在这里或Google上获得相当高的点击率。
Glen_b-恢复莫妮卡2014年

Answers:


20

比较分布的测试是排除测试。他们从两个种群相同的零假设开始,然后试图拒绝这个假设。我们永远无法证明空值是真实的,只是拒绝它,所以这些测试不能真正用来表明两个样本来自相同的总体(或相同的总体)。

这是因为分布可能存在细微的差异(这意味着它们并不相同),但是很小,以至于测试无法真正找到差异。

考虑2个分布,第一个是从0到1的均匀分布,第二个是2个均匀的混合,因此它在0到0.999之间为1,并且在9.999到10之间为1(其他地方为0)。因此,很明显,这些分布是不同的(差异是否有意义是另一个问题),但是,如果您从每个样本中抽取50个样本(总计100个),则有超过90%的机会将只能看到0到0.999之间的值,并且无法看到任何实际差异。

有几种方法可以进行所谓的等效性测试,即询问两个分布/种群是否等效,但是您需要定义认为等效的值。通常,某种程度的差异在给定范围内,即2个均值的差异小于2个均值的平均值的5%,或者KS统计量低于给定的临界值,依此类推。然后可以计算出差异统计的置信区间(均值差异可能只是置信区间,自举,模拟或其他统计可能需要的其他方法)。如果整个置信区间落在“等价区域”,那么我们认为2个总体/分布是“等效的”。

困难的部分是弄清楚等效区域应该是什么。


2
无效假设检验永远无法提供真实假设的证据。但是,贝叶斯模型或基于某种“准则”(AIC,BIC)的模型选择可能表明,与替代模型(不同分布)相比,空模型(相同分布)是对数据的更好描述。当然,所有这些都是基于一系列假设。
A. Donda

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

假设您的样本值来自连续分布,我建议进行Kolmogorov-Smirnov检验。它可以用于根据两个样本的相关经验分布来检验两个样本是否来自不同的分布(这就是我解释您的人口使用情况的方式)。

直接来自维基百科:

该统计信息的零分布是在零假设下计算的,零假设是从相同的分布中抽取样本(在两个样本的情况下)

R中的ks.test函数可用于此测试。

虽然kstest确实不测试同质性,但我认为如果您无法以足够大的样本量拒绝测试(高功率测试),则可以断言差异实际上并不重要。您可以推断出,如果确实存在差异,则差异可能没有意义(再次假设样本量很大)。您无法得出结论,他们来自与其他人正确陈述的人群相同的人群。话虽如此,通常我只需要以图形方式检查两个样本的相似性。


6
我怀疑KS检验是否可以用来显示分布等效性。
Michael M

@MichaelMayer完全正确。OP对同质性测试很感兴趣……它具有许多潜在的方法学问题。KS的异质性也有其问题:实际上,无论总体在各个方面是否相同,它都会在大样本中拒绝。它只是表明,与统计显着性相比,更好地将测试以及相应的p值视为样本大小的度量。
2014年

@AdamO是的,但是如果您有大量样本并且没有拒绝,我将相信总体上是相同的。据我所知,没有任何理论可以支持这一点,但是根据经验,知道用于异质性的KS可以检测大样本量的微小差异,可以让您使用失败的大样本测试作为实际上的事实陈述。相同的人口。我的回答是否回答了“计算这两个样本是从同一人群中提取的统计概率”的问题?当然不是。
Underminer 2014年

如果我的点是二维的,该怎么办?也就是说,我有两个二维点样本,我想知道它们是否来自不同的分布。
becko

KS测试仅适用于预定义的分布,不适用于根据数据估算参数的分布。
qwr

2

您可以使用“移位函数”来检查两个十分位数的两个分布是否不同。从技术上检验它们是否来自不同的人口,而不是相同的人口,但是,如果在任何十分位上的分布没有差异,则可以合理地确定它们来自相同的人口,尤其是在群体规模较大的情况下。

我还将可视化这两个组:覆盖它们的分布,看看它们是否彼此相似,或者更好的是从每个组中绘制数千个引导样本并绘制它们,因为这将使您了解它们是否来自同一组人口,特别是在给定变量的情况下所讨论的人口不是正态分布的情况下。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.