随机森林是否需要缩放或居中输入变量?


16

我的输入变量具有不同的尺寸。有些变量是十进制,有些则是数百。为了使数据在使用随机森林时无量纲化,对这些输入变量进行居中(减去均值)或缩放(除以标准差)是否必不可少?

Answers:


30

没有。

随机森林基于树划分算法。

因此,在一般的回归策略中并没有类似的系数可以依赖于独立变量的单位。取而代之的是,获得分区规则的集合,基本上是给定阈值的决定,并且不应随扩展而改变。换句话说,树只在要素中看到等级。

基本上,数据的任何单调转换都根本不应该更改林(在最常见的实现中)。

同样,决策树通常对数值不稳健,有时会削弱其他算法的收敛性和精度。


0

总的来说,我同意Firebug,但如果您对预测变量的重要性评分感兴趣,则在标准化变量方面可能会有一些价值。RF将倾向于使用高度可变的连续预测变量,因为有更多机会分割数据。但是,解决此问题的一种更好的方法是使用对这种偏差更可靠的特定方法(即使用条件林进行采样而不进行替换)。参见https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
欢迎来到该网站。我们正在尝试以问题和解答的形式建立永久的高质量统计信息存储库。因此,由于linkrot,我们对仅链接的答案保持警惕。您可以在链接上发布完整的引文和信息摘要,以防万一它消失了?
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.