分类处理不平衡班级的方法


8

对已解决不平衡类问题的方法进行分类的最佳方法是什么?

文章对其进行分类为:

  1. 预处理:包括过采样,欠采样和混合方法,
  2. 成本敏感型学习:包括直接方法和元学习,后者进一步分为阈值和抽样,
  3. 合奏技术:包括对成本敏感的合奏和数据预处理以及合奏学习。

第二个分类:

  1. 数据预处理:包括分布更改和加权数据空间。一类学习被认为是分布的变化。
  2. 特殊目的学习方法
  3. 预测后处理:包括阈值方法和对成本敏感的后处理
  4. 混合方法:

第三篇文章

  1. 数据级方法
  2. 算法级方法
  3. 混合方法

最后的分类也将输出调整视为独立的方法。

提前致谢。


4
答案很简短:所有人都是最好的,所有人都是最坏的!通常,分类和数据挖掘对上下文非常敏感。在这一领域,没有一种适合所有解决方案的规模。顺便说一句,从通用的角度来说,最佳方法通常是从特征提取到评估方案等不同级别的最佳决策的组合。

@mok谢谢。您能否让我知道sklearn的分类器中的类权重,例如逻辑回归被归为哪一类?
ebrahimi

@ebrahimi,它应该属于算法级别,因为仅根据传递的字典调整权重,或根据y(类)的值计算(推断)权重,并且数据保持不变。
Sanjay Krishna

@SanjayKrishna非常感谢。在第一个分类的情况下,它属于成本敏感型学习,不是吗?同样,在第二分类法的情况下,它将被分类为第三类,即成本敏感的后处理。是真的吗 第二个答案是:stackoverflow.com/questions/32492550/…也很有用。
ebrahimi

Answers:


5

我认为这三种分类在许多方面都一致。例如,这三个类别都有一个用于预处理步骤的类别。

我倾向于在第三种分类上大体上同意,因为第三种分类更通用并且包含更多内容。

  • 数据级别类别包括处理类别不平衡任何预处理步骤(例如上/下采样)。
  • 可以将算法级别视为包括前两篇文章的第二类。处理类不平衡的算法的任何更改都将放在此处(例如,类权重)。
  • 最后,是将两者结合的混合类别。

前两篇文章唯一缺少的是后处理步骤,说实话,在实践中,后处理步骤不那么频繁地使用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.