理解“几乎所有局部最小值都具有与全局最优值非常相似的函数值”

据信，对于包括学习深网在内的许多问题，几乎所有局部最小值都具有与全局最优值非常相似的函数值，因此找到局部最小值就足够了。

这种信念从何而来？

— 约翰·唐恩
source

如果这不是一个经验发现，我会感到惊讶。

— usεr11852恢复单胞菌说，

最近的论文《多层网络的损耗表面》为此提供了一些可能的解释。从他们的摘要（粗体是我的）：

“我们推测模拟退火和SGD都收敛于低临界点的频带，并且发现所有临界点都存在由测试误差衡量的高质量的局部最小值。这强调了大型网络和小型网络之间的主要差异其中后者质量差的局部极小有被恢复的概率不为零。 最后，我们证明了恢复全球最低变得更难随着网络规模的增大，它在实践中无关紧要的全球最小往往导致过度拟合。”

许多深度学习领域的有影响力的人（Yann LeCunn和Yoshua Bengio仅举几例）以及一些从数学角度来看更多的研究人员（Rong Ge和其他Sanjeev Arora合作者）一直在讨论和探索这些想法。

在以上引用的论文中，请参见图3，该图显示了当网络具有更多隐藏单元时局部最小值的带状/集中现象。条带/浓度代表一些经验证据，对于更深或更大的模型，局部最小值“足够好”，因为它们的损耗值大致相似。最重要的是，随着模型变得更加复杂（在这种情况下范围更大，但实际上更深），它们的损失接近全局最小值。

此外，他们使用旋转玻璃模型（甚至表示只是一个模型，并不一定表示真实图片）来表明，从局部最小值到达全局最小值会花费指数时间：

“为了找到一个更低的最低价，我们必须经过一个鞍点。因此，我们必须至少上升到同样数量的鞍点的水平，这样才有可能找到一条可能采取的路径的机会我们将其设置为另一个局部最小值。此过程需要花费大量时间，因此在实践中找到全局最小值是不可行的。”

荣格的研究主要围绕突破鞍点。Yoshua Bengio和他的合作者提出了一个非常大胆的“鞍点假设”：

在这里，我们根据统计物理学，随机矩阵理论，神经网络理论和经验证据得出的结论认为，更深层和更深层的困难源于鞍点的扩散，而不是局部极小点，尤其是在具有实际意义的高维问题中。这些鞍点被高误差平台所包围，该平台可能会极大地减慢学习速度，并给人以局部极小值存在的幻觉。

来源：识别和解决高维非凸优化中的鞍点问题。

在某种程度上，上述两种方法并不完全相同（“鞍点假说”可能会质疑什么是真正的局部极小值，以及仅仅是高原区域很长的条件差的鞍点？）。鞍点假说背后的想法是，有可能设计出突破鞍点的优化方法，例如Bengio文章中的Saddle-Free Newton，以潜在地加快收敛甚至达到全局最优。第一篇“多层损耗表面”文章并不真正关注达到全局最优，实际上认为它具有一些较差的过拟合特性。奇怪的是，这两篇文章都使用了统计物理学和自旋玻璃模型的思想。

但是它们之间存在某种联系，因为这两篇文章都认为，为了达到全局最小化器，必须克服鞍点的优化挑战。第一篇文章只是认为局部最小值足够好。

公平地想知道，动量法和其他可以估算某些二阶曲率性质的新优化算法是否可以逃离鞍点。Alec Radford的著名动画在这里。

要回答您的问题：“这种信念从何而来”，我个人认为这是因为可以使用不同的随机种子来学习不同的权重，但是相应的网络具有相似的定量性能。例如，如果为Glorot权重设置两个不同的随机种子，则可能会学习不同的权重，但是如果使用类似的优化方法进行训练，则网络将具有类似的性能。一种普遍的民俗信仰是，优化环境类似于鸡蛋纸箱，另一篇关于此的好博客文章：没有更多的本地最小值了吗？与鸡蛋纸盒类比。

编辑：我只是想清楚鸡蛋纸盒的类推是不正确的，否则就不需要动量或其他更高级的优化技术。但是，众所周知，SGD的性能不如SGD + Momentum或更先进的优化算法，这可能是因为存在鞍点。

— 独立AI
source

+1一个令人印象深刻的信息和权威性答案-在仅几条易于理解的段落中，它似乎可以捕捉到重要子领域中的想法和当前方向。

— ub

谢谢您的回答。既然您提到了Yann LeCun，您是否可以指出他讨论这些或类似想法的特定参考？

— John Donn

嘿约翰：我在帖子中引用的多层网的“丢失表面”由Yann合着。Yann与他人合着的另一篇类似文章是《高维景观探索》。这两篇文章非常相似，我最初引用的那篇似乎更受欢迎。

— 独立AI

“没有其他本地最小值”链接无效。通过快速的Google搜索，我找不到它所指的博客文章。博客帖子是否离线？还是干脆搬家？

— LMB