为什么不能将Kolmogorov-Smirnov检验推广到2个或多个维度?


10

问题说明了一切。我读过两个书,一个人不能将KS推广到等于或大于2的维数,而且著名的​​实现(如《数字食谱》中的实现)都是错误的。你能解释为什么吗?


我根据本文引用(在我的回答中)部分添加了一些标记(双变量,经验值和cdf)。
Glen_b-恢复莫妮卡2014年

pedrofigueira-我对答案进行了实质性更改(我的原著是错误的;对此感到抱歉)。我可能会做更多的编辑,因为我打算再参考几个多变量KS测试。
Glen_b-恢复莫妮卡2014年

@Glen_b非常感谢您的所有时间和精力!
pedrofigueira 2014年

Answers:


13

我认为引用相关段落的相关部分是合理的:

3. KS测试不能在两个或更多个维度上应用。天文学家通常拥有的数据集的点分布在平面或更高维度上,而不是沿着直线分布。天文学文献中有几篇论文声称提出了二维KS检验,其中一篇被著名的《数值食谱》转载。但是,基于EDF的测试(包括KS,AD和相关测试)不能在二维或更高维度上应用,因为没有唯一的方式对这些点进行排序,从而无法计算出明确定义的EDF之间的距离。可以基于某种排序过程来构建统计信息,然后计算两个数据集(或一个数据集和一条曲线)之间的最大距离。但是,所得统计数据的临界值并非没有分布。

如上所述,这似乎太强了。

1)双变量分布函数,即 FX1个X2=PX1个X1个X2X2 是来自的地图 [R2[01个]。也就是说,该函数采用0到1之间的单变量实数值。这些值(即概率)肯定已经被“排序”了,而这(函数的值)是我们需要对基于ECDF的测试进行比较的东西。同样,ecdf,F^ 在双变量情况下定义得很好。

我认为没有必要像文本所示尝试将其转换为单变量组合变量的某些功能。您只需计算FF^ 在每个所需的组合上并计算差异。

2)但是,关于它是否免费发行的问题,他们有一个观点:

a)显然,这种检验统计量不会因边距转换的改变而改变,也就是说,如果构建为对双变量独立制服的检验, ü=ü1个ü2,那么它作为独立性测试同样有效 X1个X2 哪里 ü一世=F一世X一世。从这个意义上讲,它是无发行的(我们可以说是“无保证金”)。

b)但是,从更广泛的意义上讲,存在一个基本点,即KS统计信息的朴素版本(例如我刚才描述的)并不是更普遍地没有发行权;我们不能简单地转变ü 任意地 X=Gü

在较早版本的回答中,我说:

没有困难,没有问题

错了 如前所述,如果不仅改变了双变量独立制服的边距,确实存在问题。但是,许多论文已经以几种方式考虑了这些困难,这些论文得出的Kolmogorov-Smirnov统计的双变量/多变量版本不会受到该问题的困扰。

我可能会再回来补充一些参考资料,并在时间允许的情况下尽快讨论它们的工作方式。


这个答案显然是正确的,但是要当心:可以使用KS测试,并不意味着应该使用它。通常,会有更好的测试(更强大)。
kjetil b halvorsen 2014年

当然-尽管这取决于感兴趣的替代方案。
Glen_b-恢复莫妮卡2014年

1
我不完全理解这个答案。我想象许多天文数据集(以及许多其他小尺寸数据集)都没有本质上有意义的坐标系。因此,在这种情况下,您声称积分“已经订购”的主张将无效。如果您能够证明KS统计信息独立于用于标识位置的坐标,则可以挽救它。我认为这在两个或多个维度上都是不正确的,但我可能会误会。
ub

1
@whuber根据您对我的错误的友好回应,我进行了重大更改。当我添加参考文献和更多详细信息时,我可能会做出进一步的更改,以期希望从长远来看会有所帮助。
Glen_b-恢复莫妮卡2014年

(+1)非常感谢Glen扩大了我的回答并使它变得更加细致。尽管我发现OP关于质量可疑的参考(一开始它就误解了假设检验的含义),但它最终承认“引导程序可以助您一臂之力,对于特定的多维统计量和所研究的特定数据集,其显着性水平可以达到数值计算的。” 至少在精神上,这似乎与您的答案的形成方式保持一致。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.