5
在统计学和机器学习中区分两组:假设检验vs.分类vs.聚类
假设我有两个数据组,分别标记为A和B(每个数据组包含200个样本和1个特征),我想知道它们是否不同。我可以: a)进行统计检验(例如t检验)以查看它们是否在统计上不同。 b)使用监督机器学习(例如,支持向量分类器或随机森林分类器)。我可以对部分数据进行训练,然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类,那么我可以确定样本是可区分的。 c)使用无监督算法(例如K-Means),然后将所有数据分为两个样本。然后,我可以检查找到的这两个样本是否与我的标签A和B一致。 我的问题是: 这三种不同方式如何重叠/排斥? b)和c)对任何科学论证有用吗? 如何从方法b)和c)中获得样品A和B之间差异的“重要性”? 如果数据具有多个功能而不是1个功能,将会发生什么变化? 如果它们包含不同数量的样本(例如100对300)会怎样?