如何测试是否从相同的基础人群中采样了两个多元分布?


13

假设您获得了两个多元数据集,分别是一个旧数据集和一个新数据集,并且它们应该是由同一过程(您没有模型)生成的,但可能是在收集/创建过程中的某个地方数据,出了点问题。您不想将新数据用作旧数据的验证集或将其添加到旧数据中。

您可以进行一维一维统计(每个变量),例如Wilcoxon排名总和,然后尝试进行多次测试校正,但是我不确定这是最佳的(要捕获多变量数据的复杂性,更不用说多次测试问题了)。一种方法是使用分类器,看看是否可以区分两个数据集(给定最佳分类器)。这似乎确实有效,但是仍然a)perhpas有更好的方法b)并不是真的要告诉您它为何与众不同(如果没有别的,它将使用最好的预测变量,并且可能会错过由更好的预测变量所包含的其他好的预测变量)

Answers:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

讨论如果数据集大小相同,则有两种可能的方法。基本方法是计算两个观察矩阵之间的距离度量。然后要确定该距离是否很大,可以使用置换检验

如果数据集大小不相同,则可以使用交叉匹配测试,尽管它似乎不太流行。除了交叉匹配测试,您还可以尝试对数据进行向上或向下采样,以使它们具有相同的大小,然后使用第一篇论文中提到的一种方法。


您提到如果我们的数据集大小不均,请使用交叉匹配测试。但是,在您提到的论文之后,它们使用相等的数据集,并希望基于距离进行配对。您是否找到任何使用这种证据的证据?即使在交叉匹配的发行说明中,该示例也使用了相等的数据集
lukeg

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.