Answers:
最近的论文《多层网络的损耗表面》为此提供了一些可能的解释。从他们的摘要(粗体是我的):
“我们推测模拟退火和SGD都收敛于低临界点的频带,并且发现所有临界点都存在由测试误差衡量的高质量的局部最小值。这强调了大型网络和小型网络之间的主要差异其中后者质量差的局部极小有被恢复的概率不为零。 最后,我们证明了恢复全球最低变得更难随着网络规模的增大,它在实践中无关紧要的全球最小往往导致过度拟合。”
许多深度学习领域的有影响力的人(Yann LeCunn和Yoshua Bengio仅举几例)以及一些从数学角度来看更多的研究人员(Rong Ge和其他Sanjeev Arora合作者)一直在讨论和探索这些想法。
在以上引用的论文中,请参见图3,该图显示了当网络具有更多隐藏单元时局部最小值的带状/集中现象。条带/浓度代表一些经验证据,对于更深或更大的模型,局部最小值“足够好”,因为它们的损耗值大致相似。最重要的是,随着模型变得更加复杂(在这种情况下范围更大,但实际上更深),它们的损失接近全局最小值。
此外,他们使用旋转玻璃模型(甚至表示只是一个模型,并不一定表示真实图片)来表明,从局部最小值到达全局最小值会花费指数时间:
“为了找到一个更低的最低价,我们必须经过一个鞍点。因此,我们必须至少上升到同样数量的鞍点的水平,这样才有可能找到一条可能采取的路径的机会我们将其设置为另一个局部最小值。此过程需要花费大量时间,因此在实践中找到全局最小值是不可行的。”
荣格的研究主要围绕突破鞍点。Yoshua Bengio和他的合作者提出了一个非常大胆的“鞍点假设”:
在这里,我们根据统计物理学,随机矩阵理论,神经网络理论和经验证据得出的结论认为,更深层和更深层的困难源于鞍点的扩散,而不是局部极小点,尤其是在具有实际意义的高维问题中。这些鞍点被高误差平台所包围,该平台可能会极大地减慢学习速度,并给人以局部极小值存在的幻觉。
在某种程度上,上述两种方法并不完全相同(“鞍点假说”可能会质疑什么是真正的局部极小值,以及仅仅是高原区域很长的条件差的鞍点?)。鞍点假说背后的想法是,有可能设计出突破鞍点的优化方法,例如Bengio文章中的Saddle-Free Newton,以潜在地加快收敛甚至达到全局最优。第一篇“多层损耗表面”文章并不真正关注达到全局最优,实际上认为它具有一些较差的过拟合特性。奇怪的是,这两篇文章都使用了统计物理学和自旋玻璃模型的思想。
但是它们之间存在某种联系,因为这两篇文章都认为,为了达到全局最小化器,必须克服鞍点的优化挑战。第一篇文章只是认为局部最小值足够好。
公平地想知道,动量法和其他可以估算某些二阶曲率性质的新优化算法是否可以逃离鞍点。Alec Radford的著名动画在这里。
要回答您的问题:“这种信念从何而来”,我个人认为这是因为可以使用不同的随机种子来学习不同的权重,但是相应的网络具有相似的定量性能。例如,如果为Glorot权重设置两个不同的随机种子,则可能会学习不同的权重,但是如果使用类似的优化方法进行训练,则网络将具有类似的性能。一种普遍的民俗信仰是,优化环境类似于鸡蛋纸箱,另一篇关于此的好博客文章:没有更多的本地最小值了吗?与鸡蛋纸盒类比。
编辑:我只是想清楚鸡蛋纸盒的类推是不正确的,否则就不需要动量或其他更高级的优化技术。但是,众所周知,SGD的性能不如SGD + Momentum或更先进的优化算法,这可能是因为存在鞍点。