深度学习中的局部极小值与鞍点

我听过Andrew Ng（不幸的是，在视频中我找不到）谈论关于深度学习问题中的局部最小值的理解已经发生了改变，因为它们现在被认为问题较少，因为在高维空间中（遇到深度学习），关键点更有可能是鞍点或平稳状态，而不是局部最小值。

我看过一些论文（例如本篇论文）讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的，但是据我了解，它们倾向于在神经网络上施加某种使其线性的结构。

在深度学习（包括非线性体系结构）中，高原比局部极小概率更有可能是正确的说法吗？如果是这样，它背后是否有（可能是数学上的）直觉？

关于深度学习和鞍点，有什么特别之处吗？

— OW_
source

关于数学上的直觉，为什么鞍点比局部最小值更可能发生，我会从特征方面考虑。要成为局部最小值，它必须在每个方向上都是局部最小值。相反，对于鞍点，仅一个方向必须与其他方向不同。与所有方向上的相同行为相比，一个或多个行为与其他行为的可能性更大。

— 保罗

谢谢，现在您已经说了，这很明显... 这是对该主题的一些有趣讨论

— oW_

吴安德（Andrew Ng）在他的Coursera课程的第2周“改善深层神经网络：超参数调整，正则化和优化”中，播放了有关“局部极小问题”的视频。也许这是您正在寻找的那个。

— mjul

在这里

— Media

Answers:

这只是在传达我的直觉，即不严谨。具有鞍点的是它们是结合了最小值和最大值的最优类型。由于深度学习的维数很大，因此最优值仅包含极小值的组合的可能性非常低。这意味着很少陷入“最低限度”。冒着过度简化的风险，很难“陷入困境”，因为您可以“向下滑动其中一个维度”。我认为您引用的Andrew Ng视频来自他的Coursera深度学习课程。

— 用户41985
source

让我给出基于多元演算的解释。如果您选择了多元课程，您会听说，给定一个临界点（梯度为零的点），该临界点最小的条件是Hessian矩阵是正定的。由于Hessian是对称矩阵，我们可以对角化它。如果我们将对应于Hessian的对角矩阵写为：则Hessian为正定等效于。

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

现在让我们考虑深度学习成本函数。深度学习成本函数以非常复杂的方式依赖于许多参数，因此Hessian本身将具有复杂的表达式。因此，我们可以认为的值不偏向负值或正值。因此，在给定任何临界点的情况下，每个值为正的概率可以假定为。此外，由于Hessian矩阵的高度非线性，合理地假设的值不容易取决于的值，因此我们将它们为正的概率视为独立事件。 $d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$

因此，给定一个临界点，它的最小值为：

P (d_{1} > 0, \dots, d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

任何临界点成为最小值的概率都随输入空间的大小呈指数下降。在深度学习中，此空间的范围可以从1000到，并且在两种情况下都小得离谱。现在，我们确信，鉴于我们遇到的任何关键点，极不可能达到最低要求。 $10^8$ $1/2^n$

但是最大值呢？

函数的最大值是减去函数的最小值。因此，以前使用的所有参数都可以用于减去成本函数，并且我们得出结论，每个临界点的概率最大为。 $1/2 ^n$

因此，给定一个临界点，它成为鞍点的概率为

P (s a d d l e) = 1 - P (m a x i m u m) - P (m i n i m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

如果足够大（通常在深度学习中），则非常接近1 。 $n$

— 戴维·马西普
source