2 为什么我们需要处理数据不平衡? 我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。 例如,如果我患一种罕见疾病,即100分之一,而我决定为我的训练集选择一个平衡的数据集,即:50/50样本不会使机器认为50%的患者会疾病?即使比率是100的1。所以 为什么我们需要处理数据不平衡问题? 设定余额的建议比率是多少 12 classification dataset sampling class-imbalance
2 我们什么时候说数据集不可分类? 我已经多次分析过一个数据集,在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器,我通常使用以下步骤: 根据数值生成标签的箱形图。 将维数减少到2或3,以查看类是否可分离,有时也尝试使用LDA。 强制尝试适合SVM和随机森林,并查看特征的重要性,以查看特征是否有意义。 尝试更改类和欠采样和过采样等技术的平衡,以检查类不平衡是否可能成为问题。 我可以想到很多其他方法,但是还没有尝试过。有时我知道这些功能不好,并且与我们试图预测的标签完全无关。然后,我根据业务直觉结束练习,得出结论,我们需要更好的功能或完全不同的标签。 我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法,然后查看验证指标是最佳选择? 11 machine-learning classification deep-learning class-imbalance bayes-error
3 我们什么时候应该认为数据集不平衡? 我面临的情况是数据集中正例和负例的数量不平衡。 我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。 例子: 如果正面示例的数量是1,000,负面示例的数量是10,000,我应该在整个数据集中训练分类器,还是应该对负面示例进行二次抽样? 1,000个肯定示例和100,000个否定示例的相同问题。 10,000个正数和1,000个负数的相同问题。 等等... 10 classification dataset sampling class-imbalance
1 分类处理不平衡班级的方法 对已解决不平衡类问题的方法进行分类的最佳方法是什么? 此文章对其进行分类为: 预处理:包括过采样,欠采样和混合方法, 成本敏感型学习:包括直接方法和元学习,后者进一步分为阈值和抽样, 合奏技术:包括对成本敏感的合奏和数据预处理以及合奏学习。 在第二个分类: 数据预处理:包括分布更改和加权数据空间。一类学习被认为是分布的变化。 特殊目的学习方法 预测后处理:包括阈值方法和对成本敏感的后处理 混合方法: 第三篇文章: 数据级方法 算法级方法 混合方法 最后的分类也将输出调整视为独立的方法。 提前致谢。 8 machine-learning classification class-imbalance