问题说明了一切。我读过两个书,一个人不能将KS推广到等于或大于2的维数,而且著名的实现(如《数字食谱》中的实现)都是错误的。你能解释为什么吗?
问题说明了一切。我读过两个书,一个人不能将KS推广到等于或大于2的维数,而且著名的实现(如《数字食谱》中的实现)都是错误的。你能解释为什么吗?
Answers:
我认为引用相关段落的相关部分是合理的:
3. KS测试不能在两个或更多个维度上应用。天文学家通常拥有的数据集的点分布在平面或更高维度上,而不是沿着直线分布。天文学文献中有几篇论文声称提出了二维KS检验,其中一篇被著名的《数值食谱》转载。但是,基于EDF的测试(包括KS,AD和相关测试)不能在二维或更高维度上应用,因为没有唯一的方式对这些点进行排序,从而无法计算出明确定义的EDF之间的距离。可以基于某种排序过程来构建统计信息,然后计算两个数据集(或一个数据集和一条曲线)之间的最大距离。但是,所得统计数据的临界值并非没有分布。
如上所述,这似乎太强了。
1)双变量分布函数,即 是来自的地图 至 。也就是说,该函数采用0到1之间的单变量实数值。这些值(即概率)肯定已经被“排序”了,而这(函数的值)是我们需要对基于ECDF的测试进行比较的东西。同样,ecdf, 在双变量情况下定义得很好。
我认为没有必要像文本所示尝试将其转换为单变量组合变量的某些功能。您只需计算 和 在每个所需的组合上并计算差异。
2)但是,关于它是否免费发行的问题,他们有一个观点:
a)显然,这种检验统计量不会因边距转换的改变而改变,也就是说,如果构建为对双变量独立制服的检验, ,那么它作为独立性测试同样有效 哪里 。从这个意义上讲,它是无发行的(我们可以说是“无保证金”)。
b)但是,从更广泛的意义上讲,存在一个基本点,即KS统计信息的朴素版本(例如我刚才描述的)并不是更普遍地没有发行权;我们不能简单地转变 任意地 。
在较早版本的回答中,我说:
没有困难,没有问题
错了 如前所述,如果不仅改变了双变量独立制服的边距,确实存在问题。但是,许多论文已经以几种方式考虑了这些困难,这些论文得出的Kolmogorov-Smirnov统计的双变量/多变量版本不会受到该问题的困扰。
我可能会再回来补充一些参考资料,并在时间允许的情况下尽快讨论它们的工作方式。