据我所见,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。
您对此有何看法?
3
这不是解决问题的要点-但您仍可能要交叉验证辅助参数(例如树的深度等)
—
Wouter
您可以使用RF或将其与其他方法在训练集上的表现进行比较,或使用独立/子集的数据来测试表现。这是关于您的假设的问题:您是要将结果推广到更大的总体还是只是对现有数据进行分类,而不是RF的属性。
—
katya