[CEST编辑为21.7.15 8:31 AM]
我想您使用RF进行分类。因为在这种情况下,该算法将生成仅具有一个目标类别的纯终端节点的完全生长的树。
predict(model, data=X_train)
这行编码就像一条狗在追尾[〜66%]。任何训练样本的预测都是训练样本本身的类别。对于回归,如果节点中包含5个或更少的样本或节点是纯净的,则RF停止。此处的预测误差很小,但不会为0%。
在机器学习中,我们经常使用较大的假设空间。这意味着对于我们的训练集的数据结构,总会有许多尚未证伪的假设/解释/模型。在经典统计中,假设空间通常很小,因此直接模型拟合对于某些假设的概率理论而言是有益的。在机器学习中,直接缺乏拟合是否与模型的偏差有关。偏差是模型的“僵化性”。它不是无论如何提供近似的泛化能力(预测新事件的能力)。对于算法模型,由于没有制定任何理论,因此交叉验证是近似泛化能力的最佳工具。但是,如果独立采样的模型假设失败,那么即使以其他方式执行良好的交叉验证,该模型也可能毫无用处。最后,最有力的证明是要令人满意地预测许多不同来源的外部测试集。
返回简历:袋装简历通常是公认的简历类型。我个人认为,OOB-CV提供与5倍CV相似的结果,但这是非常小的麻烦。如果将RF与SVM进行比较,则OOB-CV没什么用,因为我们通常避免使用SVM。取而代之的是,SVM和RF都将嵌入完全相同的交叉验证方案中,例如10重复10重复,每个重复具有匹配的分区。通常也需要对任何要素工程步骤进行交叉验证。如果要保持清洁,可以将整个数据管道嵌入到CV中。
如果您使用测试集(或交叉验证)调整模型,则会再次扩大假设空间,并且经过验证的预测性能可能会过于乐观。相反,您将需要一个校准集(或校准CV回路)进行调整,并需要一个测试验证集(或验证CV回路)来评估最终的最佳模型。
在极端的意义上,只有当您从不对结果做出反应时,您的验证分数才会是公正的。这是验证的悖论,因为为什么我们要获得只有在您不采取行动的情况下才是真实的知识。在实践中,社区愿意接受一些出版偏见,与那些不幸地过分乐观地进行验证的研究人员相比,那些随机地进行过过度乐观验证的研究人员更有可能发表论文。因此有时为什么不能重现其他模型。