让我给出基于多元演算的解释。如果您选择了多元课程,您会听说,给定一个临界点(梯度为零的点),该临界点最小的条件是Hessian矩阵是正定的。由于Hessian是对称矩阵,我们可以对角化它。如果我们将对应于Hessian的对角矩阵写为:
则Hessian为正定等效于。
D=⎡⎣⎢⎢d1⋱dn⎤⎦⎥⎥
d1>0,…,dn>0
现在让我们考虑深度学习成本函数。深度学习成本函数以非常复杂的方式依赖于许多参数,因此Hessian本身将具有复杂的表达式。因此,我们可以认为的值不偏向负值或正值。因此,在给定任何临界点的情况下,每个值为正的概率可以假定为。此外,由于Hessian矩阵的高度非线性,合理地假设的值不容易取决于的值,因此我们将它们为正的概率视为独立事件。d1,…,dndi1/2didj
因此,给定一个临界点,它的最小值为:
P(d1>0,…,dn>0)=P(d1>0)⋅⋯⋅P(dn>0)=12n
任何临界点成为最小值的概率都随输入空间的大小呈指数下降。在深度学习中,此空间的范围可以从1000到,并且在两种情况下都小得离谱。现在,我们确信,鉴于我们遇到的任何关键点,极不可能达到最低要求。1081/2n
但是最大值呢?
函数的最大值是减去函数的最小值。因此,以前使用的所有参数都可以用于减去成本函数,并且我们得出结论,每个临界点的概率最大为。1/2n
因此,给定一个临界点,它成为鞍点的概率为
P(saddle)=1−P(maximum)−P(minimum)=1−12n−12n=1−12n−1
如果足够大(通常在深度学习中),则非常接近1 。n