我熟悉的用于构建随机森林的方法如下:(来自http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm)
要在森林中建树,我们:
- 引导一个大小为N的样本,其中N是我们的训练集的大小。使用此引导示例作为此树的训练集。
- 在树的每个节点上,随机选择M个特征中的m个。在这m个功能中选择最佳以进行拆分。(其中m是我们的随机森林的参数)
- 使每棵树最大程度地生长-即不修剪。
虽然此算法在程序级别上有意义并且肯定会产生良好的结果,但我不清楚步骤1、2和3背后的理论动机是什么。请问有人可以解释是什么促使有人提出了此过程以及为什么要这样做效果很好?
例如:为什么我们需要执行步骤1?似乎我们没有为减少偏差的通常目的而自举。