使用随机森林模型时何时记录/扩展变量?


13

我正在使用随机森林进行回归,以基于多个属性预测价格。使用Scikit-learn用Python编写代码。

在如何使用变量来拟合回归模型之前,您如何决定是否应使用exp/ 变换变量log?使用诸如随机森林之类的集成方法时是否有必要?



3
由于随机森林/集成方面,我认为这与该问题有些不同,但是在看了另一篇文章后,也许可以改写这个问题。
彼得·弗洛姆

@PeterFlom您可以帮我重新说一下这个问题吗?我对此领域不够熟练:)
Nyxynyx

大多数人使用术语“合奏” RF的方式只是合奏的1个潜在输入。
Hack-R

Answers:


16

建立随机森林的方式对于独立变量的单调变换是不变的。拆分将完全类似。如果您只是追求准确性,您将看不到任何改进。实际上,由于随机森林能够即时找到复杂的非线性(为什么要称其为线性回归?)关系和变量相互作用,因此,如果您变换自变量,则可以使信息平滑,从而使该算法能够这个正确。

有时,随机森林不被视为黑匣子,而是用于推理。例如,您可以解释其提供的变量重要性度量,或计算自变量对因变量的某种边际影响。通常将其可视化为部分依赖图。我很确定这最后一点会受到变量规模的很大影响,这在尝试从“随机森林”中获取更具描述性的信息时是一个问题。在这种情况下,它可以帮助您转换变量(标准化),这可以使部分依赖性图具有可比性。对此不完全确定,将不得不考虑。

不久前,我尝试使用随机森林来预测计数数据,在平方根上回归,并且因变量的自然对数没有太大帮助,也不足以让我保留模型。

您可以在其中使用随机森林进行推断的一些软件包:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

与@JEquihua相呼应,Random Forest的预测准确性不会提高。

另请注意,如果同时保留原始预测变量和转换后的预测变量(通常在线性回归中执行),则可能会引起问题。这是因为RF随机选择变量的子集来生长每棵树,并且您实际上已将转换后的变量放入两次。如果它是一个强大的预测指标,它将被使用,并且您的随机森林不会像以前那样不相关,从而导致更高的方差。


1
将转换后的和未转换的预测器都放入任何模型是一个糟糕的主意。它们是完全共线的,并且肯定会与您的模型混淆,无论是随机森林还是线性回归。
mkt-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.