Kolmogorov–Smirnov检验：随着样本量的增加，p值和ks检验的统计量减少

12

为什么p值和ks检验统计量会随着样本数量的增加而减少？以以下Python代码为例：

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

结果是：

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

凭直觉，我理解随着n的增长，测试“更加确定”了两种分布是不同的。但是，如果样本量很大，那么在诸如此类的相似性测试（如安德森·达林检验）或t检验中有什么意义，因为在这种情况下，当n很大时，总会发现分布是“明显”不同！？现在我想知道p值的意义到底是什么。它在很大程度上取决于样本量...如果p> 0.05而您希望降低样本量，则只需获取更多数据即可。如果p <0.05且您希望它更高，则删除一些数据。

同样，如果两个分布相同，则ks检验统计量将为0，p值为1。但是在我的示例中，随着n的增加，ks检验统计量表明分布随时间变得越来越相似（减小）。，但根据p值，它们会随着时间变得越来越多（也有所减少）。

— 奥利弗·安吉尔（Oliver Angelil）
source

请参阅正常性测试“基本无用”吗？。请注意，您所说的并不完全正确：如果分布实际上相同，则即使您增加样本量，p值的分布也将保持均匀。

— Scortchi-恢复莫妮卡

2

我遇到了一个与此问题有关的问题：stats.stackexchange.com/questions/301628 / ...这让我对这项测试非常怀疑。

— Aleksandar Jovanovic

的确，有了足够的数据，您可以证明，效果的大小任意小，但非零，具有统计意义。这里的关键是要认识到统计意义和实际意义之间的区别。要错误引用荷马·辛普森，“您可以使用p值来证明甚至是真的”。

— 核王

5

由于您的分布非常相似，并且较大的样本具有较少的噪声，因此测试统计量会减少。如果要比较使用的两个理论分布，则应获得“真实的” KS统计量。随着添加更多数据，估计的KS统计量应接近此真实值。但是，即使您的KS统计量减少，您的置信度也会增加，因为它们实际上是两个不同的分布（即p值减小），因为您对各个分布的估计值更有把握。

— 亚当
source

3

实际上，获取更多数据并不是那么容易（我希望如此）。仅仅为了获得想要的值而删除数据就是学术欺诈，如果被发现，您将陷入困境。 $p$

$p$ $p$

— 马丁·布伊斯（Maarten Buis）
source

感谢您的参考，但是我仍然不确定为什么ks检验统计量将n减小。

— 奥利弗·安吉尔