如何在广义增强回归模型中选择树数?


11

是否有选择GBM中树木数量的策略?具体而言,ntrees在自变量Rgbm函数。

我不明白为什么您不应该设置ntrees为最高合理值。我注意到,大量的树明显减少了来自多个GBM的结果的可变性。我认为大量树木不会导致过度拟合。

有什么想法吗?

Answers:


3

这是GBM:

我不认为…… ”是许多句子中危险的第一部分。

没有衡量善良的标准,足够好就毫无意义。

其他方法对善良有哪些衡量标准?

  • 模型和数据之间的差异(sse,...)
  • 保持集中的误差差异(训练误差与测试误差)
  • 参数计数与样本计数的比率(大多数人喜欢每个参数5个样本或每个参数30个样本)
  • 交叉验证(针对错误测试的集成方法)

像神经网络或样条曲线一样,您可以对数据执行分段线性插值,并获得无法推广的模型。您需要放弃一些“低错误”以换取通用性-泛化。

更多链接:


2

我确实找到了对该问题的一些见解:http : //cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.step功能可用于确定最佳树木数量。我仍然不确定是什么原因导致一定数量的树后模型偏差增加的原因,所以我仍然愿意接受回答这部分问题的答案!


2
过拟合会导致增加。大多数好的方法都会建立一个保持集,并使用它来测试模型,而不是更新模型。这允许检测过拟合的开始。
EngrStudent 2014年

0

这是增强Elith等人的回归树的工作指南:http ://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full 非常有用!

您至少应使用1000棵树。据我了解,您应该结合使用学习率,树的复杂性和达到最小预测误差的树数。对于相同的迭代次数,较小的学习率值会导致较大的训练风险,而每次迭代都会降低训练风险。如果树的数量足够大,则可以任意减小风险(请参阅:Hastie等,2001,“统计学习,数据挖掘,推理和预测的要素”)。


确实,Elith等人 根据经验,建议使用1000棵树。但是,这是基于对本文中使用的特定数据集的预测稳定性的详细分析。相同的数字似乎不太可能适用于任何可能的数据集。也许您可以通过提供一些详细的答案来扩大答案,特别是在附录S1中。
DeltaIV

0

在某些机器学习算法中很常见,Boosting会在树的数量上进行偏方差折衷。松散地说,这种权衡取舍告诉您:(i)弱模型倾向于具有高偏差和低方差:它们过于僵化而无法捕获训练数据集中的可变性,因此在测试集中也不会表现良好(高测试误差)(ii)非常强的模型倾向于具有低偏差和高方差:它们太灵活并且过度适合训练集,因此在测试集中(由于数据点与训练集不同),它们也将不能很好地表现(高测试错误)

增强树木的概念是从浅树(弱模型)开始,并不断添加更多浅树,以尝试纠正先前的树弱点。在执行此过程时,测试错误趋于下降(因为整个模型变得更加灵活/强大)。但是,如果添加的树过多,则会开始过度拟合训练数据,因此测试错误会增加。交叉验证有助于找到最佳结合点

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.