我在训练集中有大约1000个正样本和10000个负样本的分类问题。因此,该数据集非常不平衡。普通随机森林只是试图将所有测试样本标记为多数类。
这里给出了有关子采样和加权随机森林的一些很好的答案:用高度偏向的数据集训练树群有什么意义?
除RF之外,还有哪些分类方法可以最好地解决问题?
另请参阅stats.stackexchange.com/q/247871/232706
—
Ben Reiniger,