分布之间的Kolmogorov距离的动机


45

有许多方法可以测量两个概率分布的相似程度。在不同的圈子中流行的方法有:

  1. Kolmogorov距离:分布函数之间的超距离;

  2. 坎托罗维奇-鲁宾斯坦距离:两个具有Lipschitz常数的函数的期望值之间的最大差,也就是分布函数之间的L 1距离;1个大号1个

  3. bounded-Lipschitz距离:与KR距离一样,但函数也必须具有最大绝对值。1个

这些有不同的优点和缺点。实际上,只有3.意义上的收敛才真正对应于分布的收敛。一般而言,在1.或2.的意义上的收敛性要强一些。(特别是如果的概率为1,则Xn的分布收敛为0,但不在Kolmogorov距离内收敛。但是,如果极限分布是连续的,则不会发生这种病理情况。)Xñ=1个ñ1个Xñ0

从基本概率或测度理论的角度来看,1.很自然,因为它比较了某个集合中的概率。另一方面,更复杂的概率视角倾向于更多地关注期望而不是概率。同样,从功能分析的角度来看,基于二元性和某些功能空间的距离(如2.或3.)非常吸引人,因为有大量的数学工具可用于处理此类事物。

但是,我的印象(如果我错了,请纠正我!)是在统计中,Kolmogorov距离是衡量分布相似度的通常首选方法。我可以猜出一个原因:如果其中一个分布是在有限支持下离散的,特别是如果它是一些实际数据的分布,那么到模型分布的Kolmogorov距离就很容易计算。(实际上,KR距离的计算较难,BL距离实际上是不可能的。)

因此,我的问题(最后)是,出于统计目的,是否还有其他原因(无论是实践原因还是理论原因)都倾向于使用Kolmogorov距离(或其他距离)?


1
我喜欢这个问题,问题中可能已经有大多数答案了……您对想要的答案/发展类型有想法吗?
罗宾吉拉德

1
不太具体。我对统计数据一无所知,而提出这个问题的原因之一就是要了解统计学家将在不同指标之间进行选择的标准。因为我已经描述了1的一个重要的实际优势(您可以实际计算),所以我对理论动机特别感兴趣。说,由柯尔莫哥洛夫距离估算值提供的信息是否经常直接在应用中使用?
马克·梅克斯

我忘了以或多或少明显结束我以前的评论:如果是,怎么办?
马克·梅克斯

我刚刚重新阅读了我的长篇评论,并意识到我提出的最后一个问题既是理论上的实际考虑。无论如何,这是我想了解的问题之一。
马克·梅克斯

我知道您并不想穷尽所有,但可以添加Anderson宠儿统计信息(请参阅en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test)。这让我想起了Jager和Wellner的论文(请参阅projecteuclid.org/…),该论文扩展/概括了Anderson的宠儿统计数据(尤其包括对Tukey的更多批评)...
robin girard 2010年

Answers:


12

标记,

我知道使用KS的主要原因是因为它自然地来自于单变量经验过程中的Glivenko-Cantelli定理。我推荐的一个参考文献是AWvan der Vaart的“渐近统计”,第ch。19.较为高级的专着是Wellner和van der Vaart撰写的“弱收敛和经验过程”。

我要添加两个快速注释:

  1. 通常用于单变量分布的另一种距离度量是Cramer-von Mises距离,它是L ^ 2距离;
  2. 在一般的向量空间中,采用不同的距离;许多论文中感兴趣的空间都是波兰语。Billingsley的“概率测度收敛”是一个很好的介绍。

如果无法具体说明,我深表歉意。我希望这有帮助。


2
笔记上有两个快速笔记。1. C-vM距离恰好是Kolmogorov(L ^ infinity)和(单变量)KR(L ^ 1)距离的L ^ 2表亲,因此在它们之间进行插值。2.我没有提到KR和BL距离的一个优点是它们更自然地推广到高维空间。
马克·梅克斯

关于1.,这是正确的。关于2.原则上,以上所有距离都可以延续到R ^ n,但是我不知道基于任何距离的流行非参数测试。知道是否有有趣的事情。
10

8

计算问题是我以另一种方式听到的最有力的论据。Kolmogorov距离的最大优势在于,几乎所有CDF都可以轻松进行分析计算。除有时在高斯情况下,大多数其他距离度量没有封闭形式的表达式。

给定CDF,样品的Kolmogorov距离也具有已知的采样分布(我认为大多数其他样品都没有),这最终与维纳过程有关。这是Kolmogorov-Smirnoff检验用于比较样本与分布或两个样本彼此的基础。

从功能分析的角度来看,最高规范很好(因为您已经提到过)基本上定义了统一收敛。这使您可以进行规范收敛,这意味着逐点收敛,因此,如果您对如何定义函数序列很聪明,则可以在RKHS内工作,并使用所有提供的出色工具。


8

总而言之,我的回答是:如果您有一个明确的表达式,或者可以弄清楚您的距离在测量的方式(它给我们带来了什么“差异”),那么您可以说出它的优点。分析和比较这种测试的另一种补充方法是最小极大值理论。

最后,对于某些替代方案和某些替代方案,将进行一些测试。对于给定的一组备选方案,有时可能会显示出在最坏的情况下测试是否具有最佳性能:这是极小极大理论。


一些细节

因此,您可以通过有关设置替代的讲述两个不同的测试特性这是他们的极小(如果这种替代存在)通过比较,即(使用多诺霍和金的话)他们的“最佳检测boudary” HTTP:// projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492

让我逐个距离走:

  1. 通过计算经验性cdf和cdf之差的最大值获得KS距离。作为最高者,它将对本地替代方案(cdf中的本地更改)高度敏感,但对全局更改则不敏感(至少使用cdf之间的L2距离将不那么本地化(我是否打开门户?)。但是,最重要的是使用cdf。这意味着不对称:您更加重视分布尾部的变化。

  2. Wassertein指标(您是Kantorovitch Rubinstein的意思是什么?) http://en.wikipedia.org/wiki/Wasserstein_metric很普遍,因此很难进行比较。


为了回想起并扩展我所做的评论,这些评论完成了答案:

我知道您并不想穷尽所有,但可以添加Anderson宠儿统计信息(请参阅http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test)。这让我想起了Jager和Wellner的论文(请参阅http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721),该论文扩展/概括了安德森亲爱的统计信息(尤其包括在内)对图基的更高批评)。更高的批评已经显示为多种选择的极小值,Jager和Wellner的扩展也是如此。我不认为minimax属性已经过Kolmogorov测试。无论如何,了解哪种测试类型是minimax可以帮助您知道测试的强度在哪里,因此您应该阅读上面的文章。


1
是的,我所谓的Kantorovitch-Rubinstein距离也称为L ^ 1 Wasserstein距离或W1。它也有许多其他名称。
马克·梅克斯

3
只是为了向不熟悉Wasserstein距离的任何人澄清这一点,并且回答了一样的答案:L ^ 2 Wasserstein距离(W2)与Cramer-von Mises距离不同。
马克·梅克斯

4

FF

FF^

SUPX|FñX-F^X|
F^F^=F

3

我不能再给您使用Kolmogorov-Smirnov检验的其他理由。但是,我可以给您一个不使用它的重要原因。它与分布的尾部不太吻合。在这方面,出色的分布拟合测试是Anderson-Darling。作为第二好的选择,卡方测试相当不错。在这方面,两者均被认为比KS测试优越得多。


2

大号p

大号0

简而言之,选择1的统一范数距离是可取的,因为它暗示的测试等效于停止时间问题,该时间本身会产生计算上可处理的概率。其中,选择2和3无法定义函数的可测量子集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.