决策树学习算法如何处理缺失值(在后台)


21

决策树学习算法用于处理缺失值的方法是什么?

他们是否只是使用称为missing的值来填充插槽?

谢谢。

Answers:


24

各种决策树使用几种方法。简单地忽略缺失值(如ID3和其他旧算法所做的那样)或将缺失值视为另一类(在名义特征的情况下)并不是真正在处理缺失值。但是,这些方法已用于决策树开发的早期阶段。

缺失数据的真正处理方法是在分割的评估中不使用缺失值的数据点。但是,当创建和训练子节点时,这些实例将以某种方式分布。

我知道以下将缺失值实例分发到子节点的方法:

  • 全部转到实例数已最多的节点(CART,不是主要规则)
  • 分配给所有子节点,但权重减小,与每个子节点(C45和其他子节点)的实例数成比例
  • 最终仅按照类别分布随机分配给一个子节点(我已经看到,在C45和CART的各种实现中,运行时间更快)
  • 构建,排序和使用代理将实例分发到子节点,其中代理是输入功能,最类似于测试功能如何将数据实例发送到左或右子节点(CART,如果失败,则使用多数规则)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.