为什么p值和ks检验统计量会随着样本数量的增加而减少?以以下Python代码为例:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
结果是:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
凭直觉,我理解随着n的增长,测试“更加确定”了两种分布是不同的。但是,如果样本量很大,那么在诸如此类的相似性测试(如安德森·达林检验)或t检验中有什么意义,因为在这种情况下,当n很大时,总会发现分布是“明显”不同!?现在我想知道p值的意义到底是什么。它在很大程度上取决于样本量...如果p> 0.05而您希望降低样本量,则只需获取更多数据即可。如果p <0.05且您希望它更高,则删除一些数据。
同样,如果两个分布相同,则ks检验统计量将为0,p值为1。但是在我的示例中,随着n的增加,ks检验统计量表明分布随时间变得越来越相似(减小)。 ,但根据p值,它们会随着时间变得越来越多(也有所减少)。
请参阅正常性测试“基本无用”吗?。请注意,您所说的并不完全正确:如果分布实际上相同,则即使您增加样本量,p值的分布也将保持均匀。
—
Scortchi-恢复莫妮卡
我遇到了一个与此问题有关的问题:stats.stackexchange.com/questions/301628 / ...这让我对这项测试非常怀疑。
—
Aleksandar Jovanovic
的确,有了足够的数据,您可以证明,效果的大小任意小,但非零,具有统计意义。这里的关键是要认识到统计意义和实际意义之间的区别。要错误引用荷马·辛普森,“您可以使用p值来证明甚至是真的”。
—
核王