在什么条件下,梯度增强机的性能要优于随机森林?


16

弗里德曼(Friedman)的梯度提升机能否比布雷曼(Beiman)的Random Forest拥有更好的性能?如果是这样,在什么条件下或什么样的数据集可以使gbm更好?


6
没有先验的方法;您必须尝试一下。
bayerj 2013年

好吧,实际上,Boosting几乎总是跑赢RF ...尽管我真的不知道为什么,但我个人还没有遇到过RF跑赢Boosting的情况。
Antoine

带有无标签数据和/或标签噪声的@Antoine学习是增强的一种特别可怕的用例。
马克·克莱森

好吧,RF和Boosting主要用于有监督的学习任务,即使有时确实可以将RF用于集群。Adaboost不能很好地贴错标签,因为指数损失函数受噪声的影响很大,但是在一般情况下(例如多项式偏差),随机梯度增强功能更为强大。
Antoine

@MarcClaesen您可以看看这个问题吗?
Antoine

Answers:


10

以下提供了为什么Boosting在实践中通常优于Random Forest的解释,但是我想知道还有哪些其他因素可以解释Boosting在特定设置下在RF方面的优势。

error=bias+variance

另一方面,Boosting减少了偏差(通过添加序列中的每棵新树,以便捕获前一棵树遗漏的树),而且还减少了方差(通过组合许多模型)。

因此,Boosting减少了两个方面的误差,而RF只能通过减少方差来减少误差。当然,正如我所说,对于实践中观察到的Boosting更好的性能,可能还有其他解释。例如,在上述书籍的第591页中,据说Boosting在嵌套球体问题上胜过RF,因为在这种特定情况下,真正的决策边界是可加的。(?)他们还报告说,对于垃圾邮件和加利福尼亚住房数据,Boosting的效果比RF好。

另一个发现Boosting优于RF的参考文献是Caruana和Niculescu-Mizil 2006。不幸的是,他们报告了结果,但没有试图解释导致它们的原因。他们比较了8个不同性能指标在11个二进制分类问题上的两个分类器(以及更多分类器)。


7

正如bayerj所说,没有办法知道先验!

随机森林相对易于校准:大多数实现(例如R或Python,例如)的默认参数都可以达到很好的效果。

另一方面,GBM难以调整(过多的树导致过度拟合,最大深度至关重要,学习率和树的数量共同作用……)并且需要更长的训练时间(缺少多线程实现) 。执行松散的调整可能会导致性能降低。

但是,根据我的经验,如果您在GBM上花费足够的时间,则可能会获得比随机森林更好的性能。


1
A loosely performed tuning may lead to dramatic performance?提防误解,因为在英语中,它dramatic表示非常好的,特殊的,非凡的等。我想这与您想说的相反...此外,对于经过精心调校的GBM优于RF的情况,您有任何解释吗?这基本上是个问题……
Antoine
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.