SVM是否处理不平衡的数据集?是否有任何参数(例如C或分类错误成本)处理不平衡的数据集?
1
是什么使数据集“失衡”?
—
ub
班级患病率差异很大的分类数据集通常被称为不平衡。
—
马克·克莱森
@Marc一般来说,这可能是正确的,但这是一个模糊的概念。“差异很大”多少?除了某些特殊情况,为什么还要重要呢?我认为,对于我们来说,重要的是要了解这个问题的提出者 “不平衡”的含义,而不是接受任何人对预期含义的明智猜测。
—
ub
@whuber不平衡数据集是机器学习中的常见概念。在应用方面,例如由于垃圾邮件检测等。也许是因为算法的主要目标是误分类错误而不是概率。这又使误差的加权成为问题。
—
seanv507
谢谢@seanv的澄清。术语上的问题实际上似乎是“句柄”不是指“可以应用于”,而是暗示一种设置,其中(1)某类的少数,其预测性能可能受到以下方面的严重影响:其他类别的存在,而(2)对少数类别的准确预测很有趣。从这个意义上说,“数据集不平衡”是对问题的相当不完整的描述,但是由于该术语似乎已经获得了某种货币,因此抱怨似乎毫无意义。
—
ub