Answers:
这是正确的-随机森林将连续变量离散化,因为它们基于决策树,决策树通过递归二进制分区起作用。但是如果有足够的数据和足够的分割,具有许多小步长的步长函数可以近似为平滑函数。因此,这不必成为问题。如果您真的想通过单个预测变量捕获平滑响应,则可以计算任何特定变量的局部效果,并为其拟合平滑函数(这不会影响模型本身,因为它将保留此逐步特征)。
在某些应用中,随机森林比标准回归技术具有许多优势。仅提及三个:
至于是否为“真实”回归,这在某种程度上是语义上的。毕竟,分段回归也是回归,但也不平滑。正如带有任何类别预测变量的回归一样,如以下注释中所指出。
它是离散的,但是任何具有固定位数的浮点数形式的输出都是离散的。如果一棵树有100片叶子,那么它可以给出100个不同的数字。如果您有100棵不同的树,每棵有100片叶子,那么理论上您的随机森林可以具有100 ^ 100个不同的值,这可以提供200(十进制)个精度位,或〜600位。当然,会有一些重叠,因此您实际上不会看到100 ^ 100个不同的值。越趋于极端,分布就会变得越来越离散。每棵树都会有一些最小的叶子(叶子的输出小于或等于所有其他叶子),一旦从每棵树中得到最小的叶子,就不会再有任何其他叶子。因此,森林将有一些最低的整体价值,当您偏离该值时,除了几棵树处于最小叶子之外,您将开始其他所有树,它们与离散跳跃中最小值增加的偏差很小。但是,极端情况下可靠性的下降是回归的一个特性,而不仅仅是随机森林。
答案将取决于您对回归的定义,请参阅回归模型的定义和定界。但是通常的定义(或定义的一部分)是回归模型对条件期望进行建模。回归树确实可以看作是条件期望的估计量。
在叶节点中,您可以预测到达该叶的样本观测值的平均值,而算术平均值是对期望值的估计。树中的分支模式代表条件。