弗里德曼(Friedman)的梯度提升机能否比布雷曼(Beiman)的Random Forest拥有更好的性能?如果是这样,在什么条件下或什么样的数据集可以使gbm更好?
弗里德曼(Friedman)的梯度提升机能否比布雷曼(Beiman)的Random Forest拥有更好的性能?如果是这样,在什么条件下或什么样的数据集可以使gbm更好?
Answers:
以下提供了为什么Boosting在实践中通常优于Random Forest的解释,但是我想知道还有哪些其他因素可以解释Boosting在特定设置下在RF方面的优势。
另一方面,Boosting减少了偏差(通过添加序列中的每棵新树,以便捕获前一棵树遗漏的树),而且还减少了方差(通过组合许多模型)。
因此,Boosting减少了两个方面的误差,而RF只能通过减少方差来减少误差。当然,正如我所说,对于实践中观察到的Boosting更好的性能,可能还有其他解释。例如,在上述书籍的第591页中,据说Boosting在嵌套球体问题上胜过RF,因为在这种特定情况下,真正的决策边界是可加的。(?)他们还报告说,对于垃圾邮件和加利福尼亚住房数据,Boosting的效果比RF好。
另一个发现Boosting优于RF的参考文献是Caruana和Niculescu-Mizil 2006。不幸的是,他们报告了结果,但没有试图解释导致它们的原因。他们比较了8个不同性能指标在11个二进制分类问题上的两个分类器(以及更多分类器)。
正如bayerj所说,没有办法知道先验!
随机森林相对易于校准:大多数实现(例如R或Python,例如)的默认参数都可以达到很好的效果。
另一方面,GBM难以调整(过多的树导致过度拟合,最大深度至关重要,学习率和树的数量共同作用……)并且需要更长的训练时间(缺少多线程实现) 。执行松散的调整可能会导致性能降低。
但是,根据我的经验,如果您在GBM上花费足够的时间,则可能会获得比随机森林更好的性能。
A loosely performed tuning may lead to dramatic performance?
提防误解,因为在英语中,它dramatic
表示非常好的,特殊的,非凡的等。我想这与您想说的相反...此外,对于经过精心调校的GBM优于RF的情况,您有任何解释吗?这基本上是个问题……