Answers:
我发现此介绍可能会提供一些直观的解释。
- 在Gradient Boosting中,(现有弱学习者的)“缺点”是通过渐变来识别的。
- 在Adaboost中,“缺点”由高权重数据点识别。
以我的理解,Adaboost的指数损失为那些拟合得较差的样品提供了更大的权重。无论如何,从损失函数的角度来看,Adaboost被视为梯度增强的特例,如导言中提供的梯度增强的历史所示。
- 发明Adaboost,第一个成功的增强算法[Freund等,1996; Freund和Schapire,1997]
- 将Adaboost公式化为具有特殊损失函数的梯度下降[Breiman等,1998; Breiman,1999]
- 将Adaboost泛化为梯度增强,以处理各种损失函数[Friedman et al。,2000,Friedman,2001]
让我以@Randel的出色答案为基础,并举例说明以下几点
- 在Adaboost中,“缺点”由高权重数据点识别
令为弱分类器的序列,我们的目标是构建以下各项:
最终预测是通过加权多数投票将所有分类器的预测组合在一起的
系数由boosting算法计算,并对每个的贡献。效果是对序列中更准确的分类器产生更高的影响。
考虑我在AdaBoost上应用了以下设置的玩具数据集:迭代次数,弱分类器=深度1和2叶子节点的决策树。红色和蓝色数据点之间的边界显然是非线性的,但是该算法做得很好。
前6个弱学习者如下所示。散点根据每次迭代时各自的样本权重进行缩放
第一次迭代:
第二次迭代:
经过10次迭代的最终结果
所有分类器在不同位置具有线性决策边界。前6个迭代的结果系数为:
([1.041,0.875,0.837,0.781,1.04,0.938 ...
不出所料,第一次迭代的系数最大,因为它的分类错误最少。
梯度提升的直观说明-待完成