假设您获得了两个多元数据集,分别是一个旧数据集和一个新数据集,并且它们应该是由同一过程(您没有模型)生成的,但可能是在收集/创建过程中的某个地方数据,出了点问题。您不想将新数据用作旧数据的验证集或将其添加到旧数据中。
您可以进行一维一维统计(每个变量),例如Wilcoxon排名总和,然后尝试进行多次测试校正,但是我不确定这是最佳的(要捕获多变量数据的复杂性,更不用说多次测试问题了)。一种方法是使用分类器,看看是否可以区分两个数据集(给定最佳分类器)。这似乎确实有效,但是仍然a)perhpas有更好的方法b)并不是真的要告诉您它为何与众不同(如果没有别的,它将使用最好的预测变量,并且可能会错过由更好的预测变量所包含的其他好的预测变量)