在最近一个广为接受的问题中,Tim问不平衡的数据何时真正成为机器学习中的问题?问题的前提是,有很多机器学习文献讨论班级平衡和班级不平衡的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(这里包括概率模型)算法出现问题,应该寻求方法来“平衡”数据集,以恢复完美的50/50在正面和负面类别之间进行划分。
赞成的答案的一般含义是“不是,至少如果您在建模时考虑周全”。M. Henry L.在对已接受答案的投票中说:
[...]使用不平衡数据没有低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意AdamO的观点,即通常来说,不平衡的数据不会对特定模型造成任何概念上的问题。
AdamO认为阶级平衡的“问题”确实是阶级稀有性之一
因此,至少在回归分析中(但我怀疑在所有情况下),数据不平衡的唯一问题是有效地减少了样本量。如果有任何一种方法适合于稀有阶层的人数,那么他们的比例成员不平衡就不会有问题。
如果这确实是一个真正的问题,那么将有一个悬而未决的问题:所有旨在平衡数据集的重采样方法的目的是什么:过采样,欠采样,SMOTE等? 显然,它们不能解决隐含样本量较小的问题,您不能一无所有地创建信息!