深度残差网络是否应被视为网络的整体?


12

问题是关于深度残留网络(ResNets)的体系结构。该模型在所有五个主要方面均赢得了“ 2015年大规模视觉识别挑战赛”(ILSVRC2015)的第一名

下一篇文章中描述了这项工作:

用于图像识别的深度残差学习(2015,PDF)


Microsoft研究团队(ResNets的开发人员:何凯明,张向宇,任少清,孙健)在其文章中:

深度残留网络中的身份映射(2016年)

指出深度起着关键作用:

我们通过一个简单但必不可少的概念获得这些结果-更深入。这些结果证明了突破深度极限的潜力。

他们的演讲中也强调了这一点(更深-更好):

-“更深层次的模型不应具有更高的训练误差。”
-“更深的ResNet具有较低的训练误差,也具有较低的测试误差。”
-“更深的ResNet具有更低的错误。”
-“所有人都将从更深的功能中受益–累积收益!”
-“更深的更好。”

这是34层残差的结构(供参考): 在此处输入图片说明


但是最近,我发现了一种理论,该理论引入了对残差网络的新颖解释,从而表明它们是指数集合。

残留网络是相对浅网络的指数集合(2016)

Deep Resnet被描述为许多浅层网络,其输出集中在不同的深度。文章中有一张图片。我附上解释:

在此处输入图片说明残留网络通常显示为(a),它是等式(1)的自然表示。当我们将此公式扩展为方程式(6)时,我们获得了3块残差网络(b)的分解图。从这个角度来看,很明显,残余网络具有连接输入和输出的O(2 ^ n)个隐式路径,添加一个块会使路径数量加倍。

在文章的结尾指出:

不是深度,而是使残留网络强大的整体。残留网络推动了网络多样性的极限,而不是网络深度的极限。我们提出的未分解视图和病灶研究表明,残差网络是指数级许多网络的隐含集合。如果大多数造成梯度的路径与网络的整体深度相比都非常短,那么深度增加 本身并不是残余网络的关键特征。我们现在认为,多重性(即网络在路径数方面的可表达性)起着关键作用

但是,只有最近的理论可以得到证实或反驳。有时会发生一些理论被驳回而文章被撤回的情况。


我们到底应该把ResNets视为一个整体吗?集合还是深度使残差网络如此强大?甚至开发人员自己也可能不太了解自己的模型代表什么以及模型中的关键概念是什么?

Answers:


4

想象一下,一个精灵会给您三个愿望。因为您是一位雄心勃勃的深度学习研究人员,所以您的第一个愿望是为Image Net的1000层NN提供完美的解决方案,该解决方案会立即出现在笔记本电脑上。

现在,精灵引发的解决方案并没有给您任何直觉,如何将其解释为一个整体,但是您真的相信您需要1000层抽象来区分猫和狗吗?正如“合奏论文”的作者提到的那样,对于生物系统而言,这绝对不是正确的。

当然,您可能将第二个愿望浪费在将解决方案分解为一组网络上的过程中,而且我很确定该精灵将能够履行义务。之所以如此,是因为深层网络的一部分功能始终来自集成效应。

因此,不足为奇的是,训练深度网络的两个非常成功的技巧,即辍学和残差网络,都可以立即理解为隐式集成。因此,“这不是深度,而是合奏”使我成为错误的二分法。您实际上只会说,如果您诚实地认为您需要数百或数千个抽象级别来对图像进行人工精确分类。

我建议您将最后的希望用于其他事情,也许是pinacolada。


0

对于许多非线性(如tanh)而言,随机残差网络都生活在混沌的边缘,因为两个输入矢量的余弦距离将以多项式速率而非指数速率收敛到固定点,就像香草tanh网络一样。因此,典型的残差网络将深度缓慢穿过稳定混沌边界,并围绕该边界徘徊许多层。基本上,它不会“很快”地“忘记”输入空间的几何形状。因此,即使我们将它们深化,它们也可以更好地发挥香草网络的作用。

有关残差网络中信息传播的更多信息- 平均场残差网络:处于混沌边缘

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.