数据科学 class-imbalance

2

我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。例如，如果我患一种罕见疾病，即100分之一，而我决定为我的训练集选择一个平衡的数据集，即：50/50样本不会使机器认为50％的患者会疾病？即使比率是100的1。所以为什么我们需要处理数据不平衡问题？设定余额的建议比率是多少

12 classification dataset sampling class-imbalance

2

我们什么时候说数据集不可分类？

我已经多次分析过一个数据集，在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器，我通常使用以下步骤：根据数值生成标签的箱形图。将维数减少到2或3，以查看类是否可分离，有时也尝试使用LDA。强制尝试适合SVM和随机森林，并查看特征的重要性，以查看特征是否有意义。尝试更改类和欠采样和过采样等技术的平衡，以检查类不平衡是否可能成为问题。我可以想到很多其他方法，但是还没有尝试过。有时我知道这些功能不好，并且与我们试图预测的标签完全无关。然后，我根据业务直觉结束练习，得出结论，我们需要更好的功能或完全不同的标签。我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法，然后查看验证指标是最佳选择？

11 machine-learning classification deep-learning class-imbalance bayes-error

3

我们什么时候应该认为数据集不平衡？

我面临的情况是数据集中正例和负例的数量不平衡。我的问题是，是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样，以便在数据集中实施某种平衡。例子：如果正面示例的数量是1,000，负面示例的数量是10,000，我应该在整个数据集中训练分类器，还是应该对负面示例进行二次抽样？ 1,000个肯定示例和100,000个否定示例的相同问题。 10,000个正数和1,000个负数的相同问题。等等...

10 classification dataset sampling class-imbalance

1

分类处理不平衡班级的方法

对已解决不平衡类问题的方法进行分类的最佳方法是什么？此文章对其进行分类为：预处理：包括过采样，欠采样和混合方法，成本敏感型学习：包括直接方法和元学习，后者进一步分为阈值和抽样，合奏技术：包括对成本敏感的合奏和数据预处理以及合奏学习。在第二个分类：数据预处理：包括分布更改和加权数据空间。一类学习被认为是分布的变化。特殊目的学习方法预测后处理：包括阈值方法和对成本敏感的后处理混合方法：第三篇文章：数据级方法算法级方法混合方法最后的分类也将输出调整视为独立的方法。提前致谢。

8 machine-learning classification class-imbalance

Questions tagged «class-imbalance»