在什么条件下，梯度增强机的性能要优于随机森林？

弗里德曼（Friedman）的梯度提升机能否比布雷曼（Beiman）的Random Forest拥有更好的性能？如果是这样，在什么条件下或什么样的数据集可以使gbm更好？

— 用户名
source

没有先验的方法；您必须尝试一下。

— bayerj 2013年

好吧，实际上，Boosting几乎总是跑赢RF ...尽管我真的不知道为什么，但我个人还没有遇到过RF跑赢Boosting的情况。

— Antoine

带有无标签数据和/或标签噪声的@Antoine学习是增强的一种特别可怕的用例。

— 马克·克莱森

好吧，RF和Boosting主要用于有监督的学习任务，即使有时确实可以将RF用于集群。Adaboost不能很好地贴错标签，因为指数损失函数受噪声的影响很大，但是在一般情况下（例如多项式偏差），随机梯度增强功能更为强大。

— Antoine

@MarcClaesen您可以看看这个问题吗？

— Antoine

Answers:

以下提供了为什么Boosting在实践中通常优于Random Forest的解释，但是我想知道还有哪些其他因素可以解释Boosting在特定设置下在RF方面的优势。

$error=bias+variance$

另一方面，Boosting减少了偏差（通过添加序列中的每棵新树，以便捕获前一棵树遗漏的树），而且还减少了方差（通过组合许多模型）。

因此，Boosting减少了两个方面的误差，而RF只能通过减少方差来减少误差。当然，正如我所说，对于实践中观察到的Boosting更好的性能，可能还有其他解释。例如，在上述书籍的第591页中，据说Boosting在嵌套球体问题上胜过RF，因为在这种特定情况下，真正的决策边界是可加的。（？）他们还报告说，对于垃圾邮件和加利福尼亚住房数据，Boosting的效果比RF好。

另一个发现Boosting优于RF的参考文献是Caruana和Niculescu-Mizil 2006。不幸的是，他们报告了结果，但没有试图解释导致它们的原因。他们比较了8个不同性能指标在11个二进制分类问题上的两个分类器（以及更多分类器）。

— 安托万
source

正如bayerj所说，没有办法知道先验！

随机森林相对易于校准：大多数实现（例如R或Python，例如）的默认参数都可以达到很好的效果。

另一方面，GBM难以调整（过多的树导致过度拟合，最大深度至关重要，学习率和树的数量共同作用……）并且需要更长的训练时间（缺少多线程实现）。执行松散的调整可能会导致性能降低。

但是，根据我的经验，如果您在GBM上花费足够的时间，则可能会获得比随机森林更好的性能。

$m$

— RUser4512
source

A loosely performed tuning may lead to dramatic performance?提防误解，因为在英语中，它dramatic表示非常好的，特殊的，非凡的等。我想这与您想说的相反...此外，对于经过精心调校的GBM优于RF的情况，您有任何解释吗？这基本上是个问题……

— Antoine