Answers:
用简单的英语来说:如果您的分类器对某些数据进行了错误分类,则主要在这个错误分类的部分上训练它的另一个副本,希望它会发现一些细微的东西。然后像往常一样进行迭代。顺便说一下,有一些投票方案可以合理地组合所有这些分类器的预测。
因为有时是不可能的(噪声只是隐藏了一些信息,或者甚至没有出现在数据中);另一方面,增加太多可能会导致过度拟合。
Boosting通过学习率参数进行收缩,再结合k倍交叉验证,“袋外”(OOB)预测或独立测试集,确定一个树丛中应保留的树数。
我们需要一个学习缓慢的模型,因此需要在每个模型的复杂性和要包含的模型数量方面进行权衡。我所看到的指导建议您应将学习率设置为尽可能低的值(考虑到计算时间和存储空间要求),而每棵树的复杂度应根据是否允许交互以及在何种程度上进行交互来选择,树越复杂,可以表示的交互就越复杂。
学习率在范围内选择 。较小的值()优先。这是应用于每棵树的权重,以降低每个模型对拟合值的贡献。
k倍CV(或OOB预测或独立测试集)用于确定增强模型何时开始过拟合。从本质上讲,这是使我们无法发展为理想模型的原因,但是最好慢慢学习,以便我们拥有大量的模型来拟合模型。