最近,我一直在思考机器/统计学习中的“班级不平衡问题”,并且越来越深地感觉到我只是不了解发生了什么。
首先让我定义(或尝试)定义我的术语:
机器/统计学习中的类不平衡问题是观察到,当0类与1类的比例非常不正确时,某些二进制分类算法(*)不能很好地执行。
因此,例如,在上面的示例中,如果每一个类有100个类,那么我会说类不平衡为到或。
我见过的大多数问题陈述都缺乏我认为足够的资格(什么模型在挣扎,问题如何失衡),这是我感到困惑的原因之一。
对机器/统计学习中的标准文本的调查几乎没有:
- 统计学习和统计学习入门的要素在索引中不包含“班级失衡”。
用于预测数据分析的机器学习在索引中也不包含“类不平衡”。
墨菲的机器学习:概率观点 的确在索引中包含“类不平衡*。参考是关于SVM的一节,我在其中找到了以下诱人的评论:
值得记住的是,所有这些困难,以及为解决这些困难而提出的大量启发式方法,都从根本上出现,因为SVM无法使用概率对不确定性进行建模,因此它们的输出得分在各个类别之间不具有可比性。
此评论确实符合我的直觉和经验:在我以前的工作中,我们通常将逻辑回归和梯度增强树模型(以最小化二项式对数似然性)拟合到不平衡数据(类不平衡程度为),在性能上没有明显的问题。
我已经(在某处)阅读了基于分类树的模型(树本身和随机森林)也确实遭受了类不平衡问题的困扰。从某种意义上讲,这会使水有些混乱,树木确实有返回概率:在树的每个终端节点中目标类的投票记录。
因此,总的来说,我真正想要的是对导致班级失衡问题(如果存在)的力量的概念性理解。
- 我们使用错误选择的算法和惰性默认分类阈值对自己做了什么吗?
- 如果我们始终拟合优化适当评分标准的概率模型,它会消失吗?换句话说,原因仅仅是损失函数的选择不正确,即基于硬分类规则和整体准确性评估模型的预测能力吗?
- 如果是这样,那么没有优化适当评分规则的模型就没有用(或者至少没有用处)吗?
(*)分类是指适合二进制响应数据的任何统计模型。我没有假设我的目标是对一个班级或另一个班级进行艰巨的任务,尽管可能是这样。
poor choice of loss function
列表了。因此,即使对于适当的计分规则作为损失函数,您是否认为这是正确的?