当使用带有动量项的反向传播算法更新神经网络的权重时,是否也应将学习率应用于动量项?
我可以找到的有关动量的大多数信息都使方程看起来像这样:
其中是学习率,是动量项。
如果项大于项,则在下一次迭代中,前一次迭代的对权重的影响将大于当前值。
这是动量术语的目的吗?还是方程看起来更像这样?
即。通过学习率扩展一切吗?
当使用带有动量项的反向传播算法更新神经网络的权重时,是否也应将学习率应用于动量项?
我可以找到的有关动量的大多数信息都使方程看起来像这样:
其中是学习率,是动量项。
如果项大于项,则在下一次迭代中,前一次迭代的对权重的影响将大于当前值。
这是动量术语的目的吗?还是方程看起来更像这样?
即。通过学习率扩展一切吗?
Answers:
与网络中使用反向传播与动量不同的权重w ^ ķ的我个校正重量W¯¯ ķ由下式给出
其中∂È是损耗WRT的变化W ^ķ。
动量速率的引入允许衰减梯度下降中的振荡。通过线性情况下的本征空间分析,可以最好地理解该思想背后的几何思想。如果最小特征值和最大特征值之间的比率较大,则即使由于矩阵条件而导致的学习速率较大,执行梯度下降的速度也会很慢。动量在与较低和较大特征值相关的特征向量之间的更新中引入了一些平衡。
有关更多详细信息,请参阅