我的问题:为什么随机森林会考虑特征的随机子集,以便在每棵树的节点级别而不是树级别进行拆分?
背景:这是一个历史问题。田锦镐(Tin Kam Ho)于1998年发表了有关构建“决策森林”的论文,该文章随机选择了用于生长每棵树的特征子集。几年后,在2001年,Leo Breiman发表了他的开创性的《随机森林》论文,其中特征子集是随机的。在每个树内的每个节点上选择,而不是在每个树上选择。尽管Breiman引用了Ho,但他没有具体说明从树级到节点级随机特征选择的过程。
我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。
我的理论:我在其他地方都没有看到过这种说法,但是就获得特征重要性的估计而言,随机子空间方法似乎效率较低。为了获得重要程度的估计值,对于每棵树,将特征一一随机排列,并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高,是那些具有最高重要性的变量。
如果我们用随机子空间的方法,每棵树,我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面,如果我们在每个节点上考虑特征的不同子集,则在更少的树之后我们将考虑每个特征更多次,从而使我们对特征重要性的估计更加可靠。
到目前为止,我所看的是:到目前为止,我已经阅读了Breiman的论文和Ho的论文,并进行了广泛的在线搜索以比较方法,而没有找到确切的答案。请注意,之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案,这个问题进一步扩大了。我会对比较这两种方法的任何答案,相关引文或模拟研究感兴趣。如果没有结果,我计划比较两种方法来运行自己的仿真。