Answers:
欠采样和过采样是一种技术,但我想我会指出一个常用的变体:
在2002年的这篇论文中对此进行了介绍。这是摘要的摘录:
本文表明,与仅对多数类进行欠采样相比,我们对少数(异常)类进行过度采样和对多数(正常)类进行欠采样的方法的组合可以实现更好的分类器性能(在ROC空间中)。
您可以使用Scikit-Learn 的contrib模块中包含的imbalanced-learn
package,在Python中轻松使用它,并且必须单独安装。
imbalanced-learn是一个python软件包,提供了许多重采样技术,这些技术通常用于显示强烈的类间不平衡的数据集中。
该软件包包括组合过采样/欠采样的方法以及一组实用程序,以生成可流入Keras / Tensorflow的批量数据。