潜在的是较新的论文,试图从Langford和Shapire团队中解决更多问题:使用Boosting Theory顺序学习Deep ResNet块
感兴趣的部分是(请参阅第3节):
关键区别在于,增强是估计假设的集合,而ResNet是估计特征表示的集合。为了解决这个问题,我们在每个残差块的顶部引入一个辅助线性分类器来构建假设模块。形式上,
假设模块定义为∑Tt=0ft(gt(x))wtot(x):=wTtgt(x)∈R
...
(其中)ot(x)=∑t−1t′=0wTtft′(gt′(x))
本文将详细介绍弱模块分类器 的构造以及如何将其与BoostResNet算法集成。ht(x)
在此答案上添加更多细节,所有增强算法都可以用[1]的某种形式编写(p 5,180,185 ...):
FT(x):=∑t=0Tαtht(x)
对于某种选择,其中是第弱假设。注意,不同的提升算法将以不同的方式产生和。httthαtαtht
例如,AdaBoost [1](p 5)使用最小化加权误差其中htϵtαt=12log1−ϵtϵt
另一方面,在渐变增强设置[1](p 190.)中,选择的使,并且选择(如学习率等)ht∇L(Ft−1(x))⋅htαt>0
如引理3.2的[2]所示,深度 ResNet 的输出为,等效于TF(x)
F(x)∝∑t=0Tht(x)
这样就完成了boosting和resnet之间的关系。论文[2]提出添加辅助线性层,使其形式为,这导致了他们的BoostResNet算法及其相关讨论FT(x):=∑Tt=0αtht(x)
[1] Robert E. Schapire和Yoav Freund。2012。提升:基础和算法。麻省理工学院出版社。p 5,180,189
[2]黄芙蓉,乔丹·阿什,约翰·兰福德,罗伯特·沙皮尔:使用Boosting Theory顺序学习Deep ResNet块,ICML 2018