在随机森林中,每棵树都是在数据的唯一Boostrap样本上并行生长的。由于预计每个Boostrap样本将包含约63%的独特观测值,因此将约37%的观测值排除在外,可用于测试树。
现在,似乎在随机梯度增强中,还有一个类似于RF中的估计:
如果bag.fraction设置为大于0(建议为0.5),则gbm将计算出袋装的预测性能改善估计值。它评估在选择下一个回归树时未使用的那些观察结果的偏差减少。
资料来源:Ridgeway(2007),第3.3节(第8页)。
我无法理解其工作方式/是否有效。说我要按顺序添加一棵树。我正在原始数据集的随机子样本上生长这棵树。我可以在不用于生长的观察结果上测试这棵树。同意 但是,由于Boosting是顺序的,所以我宁愿使用到目前为止构建的整个树序列来为那些遗漏的观察提供预测。而且,前面的许多树木很有可能已经看到了这些观察结果。因此,不是真的像RF一样在每个回合上都未对模型进行过测试,对吗?
那么,这怎么称为“袋外”误差估计呢?对我来说,似乎已经被发现了吗?