24 各种决策树使用几种方法。简单地忽略缺失值(如ID3和其他旧算法所做的那样)或将缺失值视为另一类(在名义特征的情况下)并不是真正在处理缺失值。但是,这些方法已用于决策树开发的早期阶段。 缺失数据的真正处理方法是在分割的评估中不使用缺失值的数据点。但是,当创建和训练子节点时,这些实例将以某种方式分布。 我知道以下将缺失值实例分发到子节点的方法: 全部转到实例数已最多的节点(CART,不是主要规则) 分配给所有子节点,但权重减小,与每个子节点(C45和其他子节点)的实例数成比例 最终仅按照类别分布随机分配给一个子节点(我已经看到,在C45和CART的各种实现中,运行时间更快) 构建,排序和使用代理将实例分发到子节点,其中代理是输入功能,最类似于测试功能如何将数据实例发送到左或右子节点(CART,如果失败,则使用多数规则) — 拉帕约 source