为什么进行Kolmogorov-Smirnov测试？

在阅读有关2个样本的KS测试时，我确切地了解它在做什么，但我不知道它为什么起作用。

换句话说，我可以按照所有步骤计算经验分布函数，找到两者之间的最大差值，以找到D统计量，计算临界值，将D统计量转换为p值等。

但是，我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。

有人可以很容易地告诉我，我需要跳过一头驴，计算它跑多快，如果速度小于2 km / hr，那么我会拒绝原假设。当然，我可以做您告诉我的事情，但是那与零假设有什么关系？

为什么2个样本的KS测试有效？计算ECDF之间的最大差异与两个分布的差异有何关系？

任何帮助表示赞赏。我不是统计学家，所以如果可能的话，请假设我是个白痴。

— 达西
source

欢迎来到简历，达西！好问题！

— 亚历克西斯

跳过一头驴... :)

— 理查德·哈迪

Answers:

基本上，检验是Glivenko Cantelli定理的直接结果，该定理是经验过程甚至统计数据中最重要的结果之一。

GC告诉我们，在原假设下，Kolmogorov Smirnov检验统计量变为为0 。直到您进行了真正的分析并限制了定理，这似乎是很直观的。这是一个启示，因为该过程可以被视为无限数量的随机过程，因此定律或概率会使人们相信总有一个点可以超过任何ε边界，但是没有，最高点会收敛于从长远来看。 $n \rightarrow \infty$

多久？Mmyyeeaa我不知道。测试的力量令人怀疑。我永远不会在现实中使用它。

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

— 亚当
source

+1嗨AdamO！一到两句话就冒了“有点可疑？”的权力。我很喜欢这种观点（我认为测试很容易被“压倒了”）。

— 亚历克西斯

@Alexis测试并没有解决问题，IRL我们几乎从不期望null为真，而是我们不在乎和之间第99.999个百分位数是否相差0.1 ，因此，每当我从看到时， KS检验，所有我想是，“这是一个假阴性”，每当我看到，我认为“呐喊-迪-你可以你说等什么那？”。对强零假设检验并不是提出科学证据的一种有说服力的方法。

F_{1}

$F_1$

F_{2}

$F_2$

p > 0.05

$p > 0.05$

p < 0.05

$p < 0.05$

F_{1} = F_{2}

$F_1 = F_2$

— AdamO

好。我对假设检验的差异感到关注。但是，您是否对权力的关注源自简单的本体论信念，即几乎可以确定为？还是有一些关于无症状的数学知识？

F_{1}

$F_{1}$

\neq F_{2}

$\ne F_{2}$

— 亚历克西斯

@Alexis，不，我不关心测试的数学。实际上，我认为它非常优雅，极限定理的结果令人印象深刻。

— AdamO

@Alexis我会说，在设置里它是可能的是正好等于，测试可以很方便的。我同意并不是很多实质性的科学应用都符合该要求，但是在统计计算环境中，您想要验证所编写的某些软件正在从某个已知分布中生成伪随机数，这是非常有用的。它有效地整理了您从概率图中获得的直觉。

F_{1}

$F_1$

F_{2}

$F_2$

— jcz

我们有两个独立的单变量样本：

\begin{aligned} X_{1个} ， X_{2} ， 。 。 。 ， X_{ñ} & \overset{一世 一世 d}{〜} F \\ ÿ_{1个} ， ÿ_{2} ， 。 。 。 ， ÿ_{中号} & \overset{一世 一世 d}{〜} G ， \end{aligned}

$\begin{align} X_1,\,X_2,\,...,\,X_N&\overset{iid}{\sim}F\\ Y_1,\,Y_2,\,...,\,Y_M&\overset{iid}{\sim}G, \end{align}$ ，其中和是连续的累积分布函数。Kolmogorov-Smirnov检验正在测试如果原假设为真，则和是来自同一分布的样本。从不同分布中抽取和所需的全部是和

G

$G$

F

$F$

\begin{aligned} H_{0} & ： F （ X ） = G （ X ） 对所有人 X \in [R \\ H_{1个} & ： F （ X ） \neq G （ X ） 对于一些 X \in [R 。 \end{aligned}

$\begin{align} H_0&:F(x) = G(x)\quad\text{for all } x\in\mathbb{R}\\ H_1&:F(x) \neq G(x)\quad\text{for some } x\in\mathbb{R}. \end{align}$

{X_{i}}_{i = 1}^{N}

$\{X_i\}_{i=1}^N$

{Y_{j}}_{j = 1}^{M}

$\{Y_j\}_{j=1}^M$

X_{i}

$X_i$

Y_{j}

$Y_j$

F

$F$

G

$G$

至少相差至少一个值。因此，KS测试使用每个样本的经验CDF 来估计和，并研究两者之间最大的逐点差异，并询问该差异是否“足够大”，以得出在。

x

$x$

F

$F$

G

$G$

F (x) \neq G (x)

$F(x)\neq G(x)$

x \in R

$x\in\mathbb{R}$

— cz
source

直观的做法：

Kolmogorov-Smirnov检验从根本上依赖于按分布对观测值的排序。逻辑是，如果两个基本分布相同，则取决于样本大小，两者之间的顺序应很好地混排。

如果样品订货是在极端够时尚（例如，在分发全部或大部分的意见“unshuffled”来之前在分布的观察，这将使统计大得多），被作为证据，证明空基本分布不相同的假设。 $Y$ $X$ $D$

如果两个样本分布被很好地混洗，则将没有机会变得非常大，因为和的有序值将趋于相互跟踪，并且您将没有足够的证据拒绝零值。 $D$ $X$ $Y$

— 亚历克西斯
source