回归的随机森林是“真实”回归吗?


18

随机森林用于回归。但是,据我了解,他们为每片叶子分配了一个平均目标值。由于每棵树中只有有限的叶子,因此目标只能从我们的回归模型中获得特定值。因此,不仅是“离散”回归(如阶跃函数),还是像“连续”线性回归一样?

我理解正确吗?如果是,随机森林在回归方面具有什么优势?


Answers:


23

这是正确的-随机森林将连续变量离散化,因为它们基于决策树,决策树通过递归二进制分区起作用。但是如果有足够的数据和足够的分割,具有许多小步长的步长函数可以近似为平滑函数。因此,这不必成为问题。如果您真的想通过单个预测变量捕获平滑响应,则可以计算任何特定变量的局部效果,并为其拟合平滑函数(这不会影响模型本身,因为它将保留此逐步特征)。

在某些应用中,随机森林比标准回归技术具有许多优势。仅提及三个:

  1. 它们允许使用任意多个预测变量(可能比数据点更多的预测变量)
  2. 他们可以近似复杂的非线性形状而无需先验规格
  3. 他们无需先验说明即可捕获预测之间的复杂交互。

至于是否为“真实”回归,这在某种程度上是语义上的。毕竟,分段回归也是回归,但也不平滑。正如带有任何类别预测变量的回归一样,如以下注释中所指出。


7
同样,仅具有分类特征的回归也不是很平滑。
蒂姆

3
具有一个分类特征的回归是否可以平滑?
戴夫

4

它是离散的,但是任何具有固定位数的浮点数形式的输出都是离散的。如果一棵树有100片叶子,那么它可以给出100个不同的数字。如果您有100棵不同的树,每棵有100片叶子,那么理论上您的随机森林可以具有100 ^ 100个不同的值,这可以提供200(十进制)个精度位,或〜600位。当然,会有一些重叠,因此您实际上不会看到100 ^ 100个不同的值。越趋于极端,分布就会变得越来越离散。每棵树都会有一些最小的叶子(叶子的输出小于或等于所有其他叶子),一旦从每棵树中得到最小的叶子,就不会再有任何其他叶子。因此,森林将有一些最低的整体价值,当您偏离该值时,除了几棵树处于最小叶子之外,您将开始其他所有树,它们与离散跳跃中最小值增加的偏差很小。但是,极端情况下可靠性的下降是回归的一个特性,而不仅仅是随机森林。


叶子可以存储训练数据中的任何值(因此,使用正确的训练数据,每100棵树中的100棵树可以存储多达10,000个不同的值)。但是返回值是从每棵树中选择的叶子的平均值。因此,无论您有2棵树还是100棵树,该值的精度位数都是相同的。
达伦·库克

3

答案将取决于您对回归的定义,请参阅回归模型的定义和定界。但是通常的定义(或定义的一部分)是回归模型对条件期望进行建模。回归树确实可以看作是条件期望的估计量。

在叶节点中,您可以预测到达该叶的样本观测值的平均值,而算术平均值是对期望值的估计。树中的分支模式代表条件。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.