使用随机森林进行建模是否需要交叉验证？

据我所见，人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证（尤其是将RF与同一数据集上的其他算法进行比较时）。另一方面，原始消息来源指出，在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提（Trevor Hastie）在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观上，如果在一个数据集上训练并尝试改进基于RF的模型，这对我来说很有意义。

您对此有何看法？

— 神经元
source

这不是解决问题的要点-但您仍可能要交叉验证辅助参数（例如树的深度等）

— Wouter

您可以使用RF或将其与其他方法在训练集上的表现进行比较，或使用独立/子集的数据来测试表现。这是关于您的假设的问题：您是要将结果推广到更大的总体还是只是对现有数据进行分类，而不是RF的属性。

— katya

$1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

正如@Wouter指出的那样，您可能希望对参数调整进行交叉验证，但是作为测试集错误的估计，OOB错误应该可以。

— 本纳尔
source