决策树在哪些实现中需要变量(特征)缩放和变量(特征)归一化(调整)?


10

在很多机器学习算法,特征缩放(又名可变缩放,标准化)是一种常见的prepocessing一步维基百科-特征缩放 -这个问题是接近问题#41704 -如何以及为什么做归一化和特征缩放工作?

关于决策树,我有两个问题:

  1. 是否有任何需要特征缩放的决策树实现?我的印象是,大多数算法的分割标准对规模无动于衷。
  2. 请考虑以下变量:(1)单位,(2)小时,(3)每小时-最好是将这三个变量按原样保留在决策树中,否则我们会遇到某种类型的冲突因为“标准化”变量(3)与(1)和(2)有关?也就是说,您是通过将所有三个变量都放入混合中来攻击这种情况,还是通常选择这三个变量的某种组合,或者只是使用“标准化/标准化”功能(3)?

Answers:


6

对于1,决策树通常通常不需要缩放。但是,它有助于进行数据可视化/操作,如果打算将性能与其他数据或其他方法(例如SVM)进行比较,则可能很有用。

对于2,这是一个调优问题。单位/小时可能被认为是变量交互作用的一种,其预测能力可能彼此不同。不过,这实际上取决于您的数据。我会尝试使用和不使用是否有区别。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.