深度学习中的局部极小值与鞍点


18

我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。

我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。

在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉?

关于深度学习和鞍点,有什么特别之处吗?


12
关于数学上的直觉,为什么鞍点比局部最小值更可能发生,我会从特征方面考虑。要成为局部最小值,它必须在每个方向上都是局部最小值。相反,对于鞍点,仅一个方向必须与其他方向不同。与所有方向上的相同行为相比,一个或多个行为与其他行为的可能性更大。
保罗

3
谢谢,现在您已经说了,这很明显... 是对该主题的一些有趣讨论
oW_

4
吴安德(Andrew Ng)在他的Coursera课程的第2周“改善深层神经网络:超参数调整,正则化和优化”中,播放了有关“局部极小问题”的视频。也许这是您正在寻找的那个。
mjul

Answers:


7

这只是在传达我的直觉,即不严谨。具有鞍点的是它们是结合了最小值和最大值的最优类型。由于深度学习的维数很大,因此最优值仅包含极小值的组合的可能性非常低。这意味着很少陷入“最低限度”。冒着过度简化的风险,很难“陷入困境”,因为您可以“向下滑动其中一个维度”。我认为您引用的Andrew Ng视频来自他的Coursera深度学习课程。


13

让我给出基于多元演算的解释。如果您选择了多元课程,您会听说,给定一个临界点(梯度为零的点),该临界点最小的条件是Hessian矩阵是正定的。由于Hessian是对称矩阵,我们可以对角化它。如果我们将对应于Hessian的对角矩阵写为: 则Hessian为正定等效于。

D=[d1dn]
d1>0,,dn>0

现在让我们考虑深度学习成本函数。深度学习成本函数以非常复杂的方式依赖于许多参数,因此Hessian本身将具有复杂的表达式。因此,我们可以认为的值不偏向负值或正值。因此,在给定任何临界点的情况下,每个值为正的概率可以假定为。此外,由于Hessian矩阵的高度非线性,合理地假设的值不容易取决于的值,因此我们将它们为正的概率视为独立事件。d1,,dndi1/2didj

因此,给定一个临界点,它的最小值为:

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

任何临界点成为最小值的概率都随输入空间的大小呈指数下降。在深度学习中,此空间的范围可以从1000到,并且在两种情况下都小得离谱。现在,我们确信,鉴于我们遇到的任何关键点,不可能达到最低要求。1081/2n

但是最大值呢?

函数的最大值是减去函数的最小值。因此,以前使用的所有参数都可以用于减去成本函数,并且我们得出结论,每个临界点的概率最大为。1/2n

因此,给定一个临界点,它成为鞍点的概率为

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

如果足够大(通常在深度学习中),则非常接近1 。n

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.