使用随机森林进行建模是否需要交叉验证?


10

据我所见,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。

您对此有何看法?


3
这不是解决问题的要点-但您仍可能要交叉验证辅助参数(例如树的深度等)
Wouter

您可以使用RF或将其与其他方法在训练集上的表现进行比较,或使用独立/子集的数据来测试表现。这是关于您的假设的问题:您是要将结果推广到更大的总体还是只是对现有数据进行分类,而不是RF的属性。
katya

Answers:


3

1个-1个-1个ññ1个-Ë-1个0.6

正如@Wouter指出的那样,您可能希望对参数调整进行交叉验证,但是作为测试集错误的估计,OOB错误应该可以。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.