残留网络是否与梯度提升相关?


11

最近,我们看到了残差神经网络的出现,其中,每个层都由一个计算模块和一个快捷连接组成,该连接保留了该层的输入,例如第i层的输出,表现为: 该网络允许提取残差特征并允许更深的深度,同时对消失的梯度问题更鲁棒,从而实现了最先进的性能。ci

yi+1=ci+yi

深入研究了梯度提升,这是机器学习领域中一种非常强大的集成技术,它似乎也对损失的残差执行了一种梯度优化形式,很难不看到某种形式的相似性。

我知道它们相似但不相同 -我注意到的一个主要区别是,梯度增强对加法项进行了优化,而残差网络优化了整个网络。

我没有看到He等人在他们的原始论文中注意到这是他们动机的一部分。因此,我想知道您对此主题有何见解,并要求您共享自己拥有的有趣资源。

谢谢。

Answers:


7

潜在的是较新的论文,试图从Langford和Shapire团队中解决更多问题:使用Boosting Theory顺序学习Deep ResNet块

感兴趣的部分是(请参阅第3节):

关键区别在于,增强是估计假设的集合,而ResNet是估计特征表示的集合。为了解决这个问题,我们在每个残差块的顶部引入一个辅助线性分类器来构建假设模块。形式上, 假设模块定义为t=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

(其中)ot(x)=t=0t1wtTft(gt(x))

本文将详细介绍弱模块分类器 的构造以及如何将其与BoostResNet算法集成。ht(x)


在此答案上添加更多细节,所有增强算法都可以用[1]的某种形式编写(p 5,180,185 ...):

FT(x):=t=0Tαtht(x)

对于某种选择,其中是第弱假设。注意,不同的提升算法将以不同的方式产生和。httthαtαtht

例如,AdaBoost [1](p 5)使用最小化加权误差其中htϵtαt=12log1ϵtϵt

另一方面,在渐变增强设置[1](p 190.)中,选择的使,并且选择(如学习率等)htL(Ft1(x))htαt>0

如引理3.2的[2]所示,深度 ResNet 的输出为,等效于TF(x)

F(x)t=0Tht(x)

这样就完成了boosting和resnet之间的关系。论文[2]提出添加辅助线性层,使其形式为,这导致了他们的BoostResNet算法及其相关讨论FT(x):=t=0Tαtht(x)

[1] Robert E. Schapire和Yoav Freund。2012。提升:基础和算法。麻省理工学院出版社。p 5,180,189
[2]黄芙蓉,乔丹·阿什,约翰·兰福德,罗伯特·沙皮尔:使用Boosting Theory顺序学习Deep ResNet块,ICML 2018


4

回答我自己的问题:我发现了一篇著名的论文,该论文研究并证明了深度残差网络确实是浅层网络的集合。

另一个编辑,在进一步理解了这个问题之后:我将Resnets视为学习“功能增强”的一种方式。剩余连接执行增强操作,但不是在目标上执行,而是实际上在下一层的输出功能上执行。因此,它们实际上是相连的,但不是经典的梯度增强,而是“梯度特征增强”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.