对SVM和随机森林进行归一化是否必不可少?


Answers:


29

您问题的答案取决于您计划使用哪种相似性/距离功能(在SVM中)。如果它是简单的(未加权的)欧几里德距离,那么如果您不对数据进行规范化,则会无意中赋予某些功能比其他功能更重要的功能。

例如,如果您的第一个维度的范围是0-10,第二个维度的范围是0-1,则第一个维度的差1(仅是范围的十分之一)在距离计算中的贡献与两个第二维(0和1)。因此,这样做会夸大第一维的微小差异。您当然可以想出一个自定义的距离函数,或者根据专家的估计来加权您的尺寸,但这将导致很多可调参数,具体取决于数据的尺寸。在这种情况下,归一化是一条更简单的路径(尽管不一定理想),因为至少可以开始使用。

最后,对于SVM,仍然可以做的另一件事是提出一个相似度函数而不是距离函数,并将其作为内核插入(从技术上讲,此函数必须生成正定矩阵)。可以按照您喜欢的任何方式构造此功能,并且可以考虑到功能范围的差异。

另一方面,对于随机森林,由于一个特征从未在大小上与其他特征进行比较,因此范围无关紧要。只是每个阶段都会拆分的一项功能的范围。


12

随机森林对于单个特征的单调变换是不变的。对于随机森林,转换或按要素缩放不会改变任何内容。如果您的特征具有大致相同的幅度,则SVM可能会做得更好,除非您事先知道某些特征比其他特征重要得多,在这种情况下,可以将其具有更大的幅度。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.