2
深度学习中的局部极小值与鞍点
我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。 我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。 在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉? 关于深度学习和鞍点,有什么特别之处吗?