Answers:
是的,这是有问题的。如果对少数族群进行过采样,则可能会出现过度拟合的风险。如果对多数抽样不足,则可能会错过多数类的某些方面。分层抽样btw等效于分配非均匀错误分类成本。
备择方案:
(1)如@Debasis的答案所建议并在此EasyEnsemble论文中所述,通过将每个子集与所有少数派类别数据组合在一起,从多数类别中独立采样几个子集,并进行多个分类,
(2)SMOTE(综合少数族裔过采样技术)或SMOTEBoost(将SMOTE与Boosting结合使用)通过在特征空间中建立最接近的邻居来创建少数类的综合实例。SMOTE在DMwR软件包的 R中实现。
我建议您对数据的更平衡子集进行培训。在具有相似数量的阴性样本的一组随机选择的阳性实例上训练随机森林。特别是,如果区别特征表现出很大的差异,这将是相当有效的,并且可以避免过度拟合。但是,在分层过程中,重要的是要找到平衡,因为过度拟合可能成为问题。我建议您看一下该模型如何处理整个数据集,然后逐步增加正样本与负样本的比率,使之接近偶数比率,并选择一个在某些代表性数据上最大化性能指标的样本。
本文似乎颇为相关,http: //statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf讨论了weighted Random Forest
哪一个会更严厉地惩罚少数群体的错误分类。