普遍关于过采样的观点，尤其是关于SMOTE算法的观点[关闭]

您总体上对分类过采样，特别是对SMOTE算法有何看法？为什么我们不仅仅应用成本/罚金来调整类数据的不平衡和任何不平衡的错误成本？就我的目的而言，对未来一组实验单位的预测准确性是最终的衡量标准。

作为参考，SMOTE论文：http : //www.jair.org/papers/paper953.html

machine-learning classification oversampling

— 戴夫·康明斯
source

在不平衡的数据集中对少数类进行过度采样的一个问题是，您最终会学到太多示例中的太多细节，而这又不能一概而论。SMOTE应该学习少数类中这些点附近的拓扑属性，因此您不太可能过拟合。

— horaceT

这是一个很好的话题，但是您能否使其更具针对性？“你有什么意见？” 引起了无休止的讨论，但我们倾向于更明确地关注问题/答案的格式。

— Sycorax说恢复莫妮卡

{1}列出了成本敏感型学习与抽样学习的优缺点：

2.2采样

过采样和欠采样可用于更改训练数据的类分布，并且两种方法都已用于处理类不平衡[1、2、3、6、10、11]。更改训练数据的类分布有助于使用高度偏斜的数据集进行学习的原因是，它有效地增加了不均匀的错误分类成本。例如，如果更改训练集的类别分布，以使正样本与负样本的比率从1：1变为2：1，那么一个人实际上已经将错误分类的成本比率指定为2：1。改变训练数据的类别分布和改变误分类成本比率之间的这种等效关系是众所周知的，并由Elkan [9]正式描述。

与使用采样来实施成本敏感型学习相关的已知缺点。欠采样的 缺点是它会丢弃可能有用的数据。从我们的角度来看，过采样的主要缺点是，通过对现有示例进行精确复制，可能会导致过拟合。实际上，对于过度采样，学习者通常会生成一个分类规则来覆盖单个重复的示例。过采样的第二个缺点是增加了训练示例的数量，从而增加了学习时间。

2.3为什么要使用采样？

考虑到采样的缺点，值得一问的是，为什么有人会使用它，而不是使用成本敏感的学习算法来处理具有偏斜的类别分布和不均匀分类错误成本的数据。有几个原因。最明显的原因是，并非所有学习算法都对成本敏感，因此，使用采样的基于包装器的方法是唯一的选择。虽然今天的情况肯定比过去不那么正确，但是许多学习算法（例如C4.5）仍然不能直接处理学习过程中的成本。

使用采样的第二个原因是，许多高度偏斜的数据集非常庞大，并且必须减小训练集的大小才能使学习可行。在这种情况下，低采样似乎是一种合理且有效的策略。在本文中，我们不考虑减少训练集大小的需要。但是，我们要指出的是，如果需要丢弃一些训练数据，为了减少训练集的大小到所需的大小，然后使用一些成本高昂的方法，丢弃一些多数班级的例子可能仍然是有益的。灵敏的学习算法，使丢弃的训练数据量最小化。

可能导致使用采样而非成本敏感型学习算法的最终原因是，错误分类成本通常是未知的。但是，这不是在成本敏感型学习算法上使用抽样的正当理由，因为与抽样有关的问题类似-最终训练数据的类分布应该是什么？如果此成本信息未知，则可以使用诸如ROC曲线下面积之类的度量来衡量分类器的性能，然后两种方法都可以凭经验确定适当的成本比率/类别分布。

他们还进行了一系列实验，但尚无定论：

根据所有数据集的结果，在成本敏感型学习，过采样和欠采样之间没有确定的赢家

然后，他们试图了解数据集中的哪些标准可能暗示着哪种技术更合适。

他们还指出，SMOTE可能会带来一些增强：

人们已经进行了许多改进来提高采样的有效性。其中一些增强功能包括：在过采样[5-> SMOTE]时引入新的“合成”示例；在欠采样[11]时删除不太有用的多数类示例；在欠采样时使用多个子样本，例如至少要使用每个样本。子样本[3]。虽然已将这些技术与过采样和欠采样进行了比较，但通常没有将它们与对成本敏感的学习算法进行比较。将来值得研究。

{1} Weiss，Gary M.，Kate McCarthy和Bibi Zabar。“成本敏感型学习与抽样：哪种方法最适合处理错误成本不相等的不平衡类？”。DMIN 7（2007）：35-41。https://scholar.google.com/scholar?cluster=10779872536070567255&hl=zh-CN&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— 弗兰克·德农库特
source

当您说“成本敏感型学习算法”时，我的大脑应该思考“惩罚出现频率高的班级，并可能将更多的重要性分配给频率低的班级”吗？这个概念等同于分配班级权重吗？

— Jarad '18