Answers:
建立随机森林的方式对于独立变量的单调变换是不变的。拆分将完全类似。如果您只是追求准确性,您将看不到任何改进。实际上,由于随机森林能够即时找到复杂的非线性(为什么要称其为线性回归?)关系和变量相互作用,因此,如果您变换自变量,则可以使信息平滑,从而使该算法能够这个正确。
有时,随机森林不被视为黑匣子,而是用于推理。例如,您可以解释其提供的变量重要性度量,或计算自变量对因变量的某种边际影响。通常将其可视化为部分依赖图。我很确定这最后一点会受到变量规模的很大影响,这在尝试从“随机森林”中获取更具描述性的信息时是一个问题。在这种情况下,它可以帮助您转换变量(标准化),这可以使部分依赖性图具有可比性。对此不完全确定,将不得不考虑。
不久前,我尝试使用随机森林来预测计数数据,在平方根上回归,并且因变量的自然对数没有太大帮助,也不足以让我保留模型。
您可以在其中使用随机森林进行推断的一些软件包:
https://cran.r-project.org/web/packages/randomForestExplainer/index.html
https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html