两个决策树的总和是否等于单个决策树?


15

假设我们有两个回归树(树A和B树),该地图输入为输出。对于树A,让对于树B,让。每棵树都使用二进制拆分,并以超平面作为分离函数。X[Rd Ŷ =˚FX˚FXÿ^[Rÿ^=F一种XFX

现在,假设我们对树的输出进行加权求和:

FCX=w一种 F一种X+w FX

函数等效于单个(更深的)回归树?FC如果答案是“有时”,那么在什么条件下?

理想情况下,我想允许倾斜的超平面(即对特征的线性组合执行的分割)。但是,如果这是唯一的答案,那么假设单功能拆分可能是可以的。

这是在2d输入空间上定义的两个回归树:

在此处输入图片说明

该图显示了每棵树如何划分输入空间以及每个区域的输出(以灰度编码)。彩色数字表示输入空间的区域:3、4、5、6对应于叶节点。1是3和4的并集,依此类推。

现在假设我们对树A和树B的输出求平均:

在此处输入图片说明

平均输出在左侧绘制,树A和B的决策边界重叠。在这种情况下,可以构造一棵更深的树,其输出等于平均值​​(在右侧绘制)。每个节点对应于输入空间的一个区域,该区域可以在树A和B定义的区域之外构建(由每个节点上的彩色数字表示;多个数字表示两个区域的交集)。请注意,这棵树不是唯一的-我们可能已经从树B而不是树A开始构建。

此示例表明,在某些情况下答案为“是”。我想知道这是否总是对的。


2
嗯。如果是这样的话,为什么我们要训练一个随机森林?(因为显然可以将500棵树的线性组合重新表示为499个加权的500棵树的成对总和)好的问题,+ 1。
usεr11852恢复单胞菌说,

有趣的问题!我假设决策树和决策树集合(增强,树的线性组合)的假设空间是相同的。期待一个答案..
拉克桑·内森

@usεr11852也许是因为使用一棵非常大的树而不是森林要慢得多?就像在神经网络中一样,一个隐藏层网络已经可以近似所有连续功能,但是增加层数可以使网络更快。并不是说这里是这种情况,但事实可能是这样。
Harto Saarinen

1
@HartoSaarinen:这是一种有趣的思考方式,但我怀疑它并不容易实现。公认的是,很深的树可能会过度拟合并泛化得很差(他们的预测也很不稳定)。另外(关于速度的考虑),更深的树需要成倍增加的分裂次数,因此需要更多的训练时间。(一棵深度为10的树最多可进行1023次拆分,而一棵深度为20的树最多可进行1048575次拆分。还有很多工作
要做

1
@usεr11852我同意这可能完全不正确,答案可能完全不同。这就是使这个领域如此有趣的原因,有很多东西要被发现!
哈托·萨里宁

Answers:


6

是的,回归树的加权总和等同于单个(更深的)回归树。

通用函数逼近器

回归树是通用函数逼近器(例如参见cstheory)。关于通用函数逼近的大多数研究都是在具有一个隐藏层的人工神经网络上完成的(请阅读出色的博客)。但是,大多数机器学习算法都是通用函数逼近。

作为通用函数逼近器意味着可以任意表示任意函数。因此,无论函数变得多么复杂,通用函数逼近都能以任何期望的精度表示它。如果是回归树,您可以想象一棵无限深的树。这棵无限深的树可以将任何值分配给空间中的任何点。

由于回归树的加权和是另一个任意函数,因此存在另一个代表该函数的回归树。

创建这样一棵树的算法

Ť1Ť2Ť2Ť1Ť1Ť2

下面的示例显示了两个简单树,它们的权重为0.5。请注意,永远不会到达一个节点,因为不存在小于3且大于5的数字。这表明可以改进这些树,但不会使它们无效。

在此处输入图片说明

为什么要使用更复杂的算法

@usεr11852在评论中提出了一个有趣的附加问题:如果每个函数都可以用简单的回归树建模,为什么我们要使用Boosting算法(或者实际上是任何复杂的机器学习算法)?

回归树确实可以表示任何函数,但这只是机器学习算法的一个标准。另一个重要特性是它们的概括性。深度回归树易于过度拟合,即,它们的推广效果不佳。随机森林会平均许多深树来防止这种情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.