我正在执行回归任务-是否需要对randomForest(R包)的数据进行规范化(或缩放)?是否有必要同时缩放目标值?如果-我想从插入符号包中使用缩放功能,但是我没有找到如何取回数据(去缩放,反规范化)。您是否不知道其他一些功能(在任何软件包中)对规范化/非规范化很有帮助?谢谢,米兰
Answers:
不,缩放对于随机森林不是必需的。
RF的本质是,收敛性和数值精度问题(有时可能会使逻辑和线性回归以及神经网络使用的算法绊倒)并不那么重要。因此,您不需要像使用NN一样将变量转换为通用比例。
您不会得到任何回归系数的类似物,后者可以测量每个预测变量与响应之间的关系。因此,您也无需考虑如何解释这些系数,而这些系数受可变测量范围的影响。
我在帮助页面或Vignette中都没有看到任何建议,建议对中的回归变量进行缩放是必需的randomForest
。Stats Exchange的此示例也未使用缩放。
我的评论副本:该scale
函数不属于pkg:caret。它是“基本” R包的一部分。unscale
软件包grt和DMwR中有一个函数可以反转转换,或者您可以简单地乘以scale属性,然后添加center属性值。
您对为什么需要进行“标准化”的想法可能需要进行严格的检查。仅在完成回归后才需要进行非正态性检验,如果在拟合方法的优度中没有正态性假设,则可能根本不需要进行非正态性检验。那么:你为什么要问?在SO和Stats.Exchange中搜索可能被证明是有用的: 引用#1 ; 引用#2 ; 引用3
boxcox
当您不具备“应该”分配的先验知识时,以及您确实需要进行转换时,此功能是一种常用的转换。应用转换有很多陷阱,因此您需要提出问题这一事实引起了人们的担忧,即您可能需要进一步的咨询或自学。
scale
。您的跟进问题有助于保持记录的准确性。
猜猜,在下面的示例中将发生什么?想象一下,您有20个预测特征,其中18个在[0; 10]范围内,另外2个在[0; 1,000,000]范围内(取自真实示例)。问题1:随机森林将分配哪些特征重要性。问题2:缩放2个大范围特征后,特征重要性将如何处理?
缩放很重要。就是说,与其他算法相比,Random Forest对缩放的敏感性较低,并且可以使用“大致”缩放的功能。
scale
功能不属于caret
。它是“基本” R包的一部分。有一个unscale
功能可以逆向转换。