6
对于凸问题,随机梯度下降(SGD)中的梯度是否始终指向全局极值?
给定凸成本函数,使用SGD进行优化,我们将在优化过程中的某个点处具有一个梯度(矢量)。 我的问题是,给定凸面上的点,梯度是否仅指向函数增加/减少最快的方向,或者梯度始终指向成本函数的最优/极端? 前者是本地概念,后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。 梯度的方向应该是函数在该点上最快增减的方向,对吗?