Answers:
您问题的答案取决于您计划使用哪种相似性/距离功能(在SVM中)。如果它是简单的(未加权的)欧几里德距离,那么如果您不对数据进行规范化,则会无意中赋予某些功能比其他功能更重要的功能。
例如,如果您的第一个维度的范围是0-10,第二个维度的范围是0-1,则第一个维度的差1(仅是范围的十分之一)在距离计算中的贡献与两个第二维(0和1)。因此,这样做会夸大第一维的微小差异。您当然可以想出一个自定义的距离函数,或者根据专家的估计来加权您的尺寸,但这将导致很多可调参数,具体取决于数据的尺寸。在这种情况下,归一化是一条更简单的路径(尽管不一定理想),因为至少可以开始使用。
最后,对于SVM,仍然可以做的另一件事是提出一个相似度函数而不是距离函数,并将其作为内核插入(从技术上讲,此函数必须生成正定矩阵)。可以按照您喜欢的任何方式构造此功能,并且可以考虑到功能范围的差异。
另一方面,对于随机森林,由于一个特征从未在大小上与其他特征进行比较,因此范围无关紧要。只是每个阶段都会拆分的一项功能的范围。