我有计算机科学背景,但是正在尝试通过解决Internet问题来自学数据科学。
在过去的几周里,我一直在研究这个问题(大约900行和10个功能)。我最初使用逻辑回归,但是现在我切换到了随机森林。当我在训练数据上运行随机森林模型时,auc的值非常高(> 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是很好(准确度约为77%)。这使我相信我已经过度适合训练数据了。
关于防止随机森林过度适应的最佳实践是什么?
我正在使用r和rstudio作为开发环境。我正在使用该randomForest
软件包,并且已接受所有参数的默认值