决策树在哪些实现中需要变量（特征）缩放和变量（特征）归一化（调整）？

10

在很多机器学习算法，特征缩放（又名可变缩放，标准化）是一种常见的prepocessing一步维基百科-特征缩放 -这个问题是接近问题＃41704 -如何以及为什么做归一化和特征缩放工作？

关于决策树，我有两个问题：

是否有任何需要特征缩放的决策树实现？我的印象是，大多数算法的分割标准对规模无动于衷。
请考虑以下变量：（1）单位，（2）小时，（3）每小时-最好是将这三个变量按原样保留在决策树中，否则我们会遇到某种类型的冲突因为“标准化”变量（3）与（1）和（2）有关？也就是说，您是通过将所有三个变量都放入混合中来攻击这种情况，还是通常选择这三个变量的某种组合，或者只是使用“标准化/标准化”功能（3）？

machine-learning feature-selection cart

— 杰森·艾兹卡恩斯
source

Answers:

6

对于1，决策树通常通常不需要缩放。但是，它有助于进行数据可视化/操作，如果打算将性能与其他数据或其他方法（例如SVM）进行比较，则可能很有用。

对于2，这是一个调优问题。单位/小时可能被认为是变量交互作用的一种，其预测能力可能彼此不同。不过，这实际上取决于您的数据。我会尝试使用和不使用是否有区别。

— wwwslinger
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.