假设我有两个样本。如果我想告诉他们是否来自不同人群,我可以进行t检验。但是,假设我要测试样本是否来自同一人群。如何做到这一点?也就是说,如何计算这两个样本是从同一总体中提取的统计概率?
假设我有两个样本。如果我想告诉他们是否来自不同人群,我可以进行t检验。但是,假设我要测试样本是否来自同一人群。如何做到这一点?也就是说,如何计算这两个样本是从同一总体中提取的统计概率?
Answers:
比较分布的测试是排除测试。他们从两个种群相同的零假设开始,然后试图拒绝这个假设。我们永远无法证明空值是真实的,只是拒绝它,所以这些测试不能真正用来表明两个样本来自相同的总体(或相同的总体)。
这是因为分布可能存在细微的差异(这意味着它们并不相同),但是很小,以至于测试无法真正找到差异。
考虑2个分布,第一个是从0到1的均匀分布,第二个是2个均匀的混合,因此它在0到0.999之间为1,并且在9.999到10之间为1(其他地方为0)。因此,很明显,这些分布是不同的(差异是否有意义是另一个问题),但是,如果您从每个样本中抽取50个样本(总计100个),则有超过90%的机会将只能看到0到0.999之间的值,并且无法看到任何实际差异。
有几种方法可以进行所谓的等效性测试,即询问两个分布/种群是否等效,但是您需要定义认为等效的值。通常,某种程度的差异在给定范围内,即2个均值的差异小于2个均值的平均值的5%,或者KS统计量低于给定的临界值,依此类推。然后可以计算出差异统计的置信区间(均值差异可能只是置信区间,自举,模拟或其他统计可能需要的其他方法)。如果整个置信区间落在“等价区域”,那么我们认为2个总体/分布是“等效的”。
困难的部分是弄清楚等效区域应该是什么。
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
假设您的样本值来自连续分布,我建议进行Kolmogorov-Smirnov检验。它可以用于根据两个样本的相关经验分布来检验两个样本是否来自不同的分布(这就是我解释您的人口使用情况的方式)。
直接来自维基百科:
该统计信息的零分布是在零假设下计算的,零假设是从相同的分布中抽取样本(在两个样本的情况下)
R中的ks.test函数可用于此测试。
虽然kstest确实不测试同质性,但我认为如果您无法以足够大的样本量拒绝测试(高功率测试),则可以断言差异实际上并不重要。您可以推断出,如果确实存在差异,则差异可能没有意义(再次假设样本量很大)。您无法得出结论,他们来自与其他人正确陈述的人群相同的人群。话虽如此,通常我只需要以图形方式检查两个样本的相似性。