为什么袋装树/随机森林树比单个决策树具有更高的偏差?


11

如果我们考虑一个完整的决策树(即未修剪的决策树),则它具有高方差和低偏差。

套袋和随机森林使用这些高方差模型并对其进行汇总,以减少方差,从而提高预测准确性。套袋和随机森林都使用Bootstrap采样,并且如“统计学习的要素”中所述,这会增加单个树中的偏差。

此外,由于随机森林方法限制了允许在每个节点上拆分的变量,因此单个随机森林树的偏差会进一步增加。

因此,如果套袋和随机森林中单棵树的偏差增加不会“过度”使变化减少,则只能提高预测精度。

这使我想到以下两个问题:1)我知道使用引导程序抽样时,(几乎总是)我们在引导程序样本中会有一些相同的观察结果。但是,为什么这会导致套袋/随机森林中单个树木的偏见增加?2)此外,为什么对每个拆分中要拆分的可用变量的限制会导致随机森林中各个树的偏倚更高?

Answers:


5

我将接受昆仑提供的关于1)的答案,但为解决这个问题,在这里,我将给出我在论文中遇到的两个问题的结论(我的主管都接受了这两个问题):

1)更多数据会产生更好的模型,并且由于我们仅使用全部训练数据中的一部分来训练模型(自举),因此每棵树中的偏差都会更大(昆仑答案提供)

2)在随机森林算法中,我们限制了每次拆分中要拆分的变量的数量-即,我们限制了用来解释数据的变量的数量。同样,在每棵树中会出现更高的偏差。

结论:两种情况都限制了我们解释总体的能力:首先,我们限制观察的数量,然后,限制每次拆分中要拆分的变量的数量。两种局限性都会导致每棵树的偏倚更高,但是模型中方差的减少往往会掩盖每棵树的偏倚,因此Bagging和Random Forests往往会产生比仅一棵决策树更好的模型。


-1

您的问题很简单。1)更多数据会产生更好的模型,因为您仅使用全部训练数据的一部分来训练模型(引导程序),所以较高的偏差是合理的。2)更多的分割意味着更深的树或更纯净的节点。这通常导致高方差和低偏差。如果限制拆分,则方差越低,偏差越大。


4
我不太赞成1)的论点,因为每个引导程序样本的可能性均等,并且偏差与平均模型的行为有关。看来它必须比这更微妙。我也不认为2)解决了所问的问题。海报并不意味着“极限分裂”,就像“生长较浅的树”一样。
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.