使用随机森林采样多少个特征


13

引用“统计学习的要素”维基百科页面显示

通常,对于具有特征的分类问题 ,每个分割中都使用特征。pp

我知道这是一个相当有根据的猜测,并且可能已得到经验证据的证实,但是还有其他原因导致人们选择平方根吗?那里有统计现象吗?

这是否有助于减少误差的方差?

回归和分类是否相同?

Answers:


16

我认为在原始论文中他们建议使用),但是无论哪种方式,想法都如下:log2(N+1

随机选择的特征数量可以通过两种方式影响泛化误差:选择许多特征会增加单个树木的强度,而减少特征数量会导致树木之间的相关性较低,从而增加整个森林的强度。

有趣的是,《随机森林》(pdf)的作者发现了分类和回归之间的经验差异:

回归和分类之间的一个有趣的区别是,随着使用的特征数量的增加,相关性的增加非常缓慢。

因此,对于回归经常建议,这提供了比较大的值。N/3N

通常,对于分类问题,或并没有明确的依据,只是它表明树之间的较低相关性可以减少泛化误差,足以抵消单个树的强度下降。特别是,作者注意到这种折衷可以减少泛化误差的范围非常大: logNNlogN

中间范围通常较大。在此范围内,随着特征数量的增加,相关性增加,但是PE *(tree)通过减小来补偿。

(PE *为泛化误差)

正如他们在《统计学习要素》中所说:

实际上,这些参数的最佳值将取决于问题,因此应将它们视为调整参数。

您的问题可能取决于的一件事是分类变量的数量。如果您有许多分类变量被编码为伪变量,则通常有意义的是增加参数。再次,从《随机森林》论文中:

当许多变量是分类变量时,使用较低的[特征数量]会导致较低的相关性,但强度也会较低。[功能数量]必须增加到三倍左右,以获得足够的强度以提供良好的测试设置精度。int(log2M+1)


谢谢,这是一个非常有用的答案。确实,我在想,每棵树的强度与整个森林的强度有关。确实,非常有趣的是回归和分类之间存在如此差异。非常感谢您链接原始论文。一直试图通过许多技术来收集此类论文。
Valentin Calomme,2017年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.