我正在为我正在研究的项目探索不同的分类方法,并且对尝试“随机森林”感兴趣。我正在努力地进行自我教育,并感谢CV社区提供的任何帮助。
我已将数据分为训练/测试集。通过在R中使用随机森林进行实验(使用randomForest包),我遇到了麻烦,因为我的小班级误分类率很高。我已经阅读了有关随机森林在不平衡数据上的性能的文章,作者提出了两种使用随机森林时处理类不平衡的方法。
1.加权随机森林
2.平衡的随机森林
R软件包不允许对类进行加权(从R帮助论坛中,我已经阅读到classwt参数无法正常运行,并计划将其作为将来的错误修复程序),因此我可以选择选项2。我可以指定随机森林每次迭代从每个类中采样的对象数。
对于为随机森林设置相等的样本大小,我感到不安,因为我好像会丢失太多有关较大类的信息,从而导致将来的数据表现不佳。对较大类别进行下采样时,分类错误率有所提高,但是我想知道在随机森林中是否还有其他方法可以处理类别不平衡的情况?