Answers:
这是GBM:
“ 我不认为…… ”是许多句子中危险的第一部分。
没有衡量善良的标准,足够好就毫无意义。
其他方法对善良有哪些衡量标准?
像神经网络或样条曲线一样,您可以对数据执行分段线性插值,并获得无法推广的模型。您需要放弃一些“低错误”以换取通用性-泛化。
更多链接:
我确实找到了对该问题的一些见解:http : //cran.r-project.org/web/packages/dismo/vignettes/brt.pdf
该gbm.step
功能可用于确定最佳树木数量。我仍然不确定是什么原因导致一定数量的树后模型偏差增加的原因,所以我仍然愿意接受回答这部分问题的答案!
这是增强Elith等人的回归树的工作指南:http ://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full 非常有用!
您至少应使用1000棵树。据我了解,您应该结合使用学习率,树的复杂性和达到最小预测误差的树数。对于相同的迭代次数,较小的学习率值会导致较大的训练风险,而每次迭代都会降低训练风险。如果树的数量足够大,则可以任意减小风险(请参阅:Hastie等,2001,“统计学习,数据挖掘,推理和预测的要素”)。
在某些机器学习算法中很常见,Boosting会在树的数量上进行偏方差折衷。松散地说,这种权衡取舍告诉您:(i)弱模型倾向于具有高偏差和低方差:它们过于僵化而无法捕获训练数据集中的可变性,因此在测试集中也不会表现良好(高测试误差)(ii)非常强的模型倾向于具有低偏差和高方差:它们太灵活并且过度适合训练集,因此在测试集中(由于数据点与训练集不同),它们也将不能很好地表现(高测试错误)
增强树木的概念是从浅树(弱模型)开始,并不断添加更多浅树,以尝试纠正先前的树弱点。在执行此过程时,测试错误趋于下降(因为整个模型变得更加灵活/强大)。但是,如果添加的树过多,则会开始过度拟合训练数据,因此测试错误会增加。交叉验证有助于找到最佳结合点