Answers:
想想“优化前景”。例如,如果您的网络只有两个权重,则可以在表面上绘制这两个权重的所有组合,其中每个点的高度表示如果使用该函数,则成本函数返回的误差量(x,y )作为您的两个权重。您试图移动到此表面上的最低点以获取最低级别的错误。
有时问题是表面会变得非常疯狂,尤其是在具有数百万个参数(而不只是两个)的网络中。您可能会陷入进度缓慢的鞍点,然后突然被吊索击落到向下的山丘中。
这是一个动画,可以帮助您直观地看到这一点
。您可以看到,更基本的梯度下降算法更容易卡在这些位置。
可能还有其他原因,但这是您最常听到的原因。网络中可能会有一堆单元达到饱和激活状态(或者在relu的情况下,一个单元仅由很少量的训练输入激活),并且当一个单元脱离饱和状态时引发连锁反应,使其余部分脱离饱和,权重突然增加梯度流?我还没有研究过类似的东西,但是如果有人有其他原因要补充,我会很感兴趣。