我实际上是在编写随机森林的实现,但我相信这个问题特定于决策树(独立于RF)。
因此,上下文是我正在决策树中创建一个节点,并且预测变量和目标变量都是连续的。该节点有一个分割阈值,可将数据划分为两个集合,我根据每个集合中的平均目标值为每个子集创建新的预测。这是正确的方法吗?
我问的原因是,在预测二进制变量时,我相信典型的方法(正确吗?)是将数据分为0和1个子集,而不需要对每个子集的数据行取平均值。随后的分割将被划分为更细粒度的子集,并在每个分割处取平均值,结果后续的分割(决策树下方)将根据现在的连续变量而不是二进制变量进行操作(因为我们对残差值而不是原始值进行运算)目标)。
附带的问题:两种方法(二进制方法与连续方法)之间的区别是否显着-还是对于完整的决策树它们实际上会给出相同的结果?