反向传播算法的动量项如何工作?


9

当使用带有动量项的反向传播算法更新神经网络的权重时,是否也应将学习率应用于动量项?

我可以找到的有关动量的大多数信息都使方程看起来像这样:

w ^一世=w ^一世-αΔw ^一世+μΔw ^一世-1个

其中α是学习率,是动量项。μ

如果项大于项,则在下一次迭代中,前一次迭代的对权重的影响将大于当前值。μαΔW

这是动量术语的目的吗?还是方程看起来更像这样?

Wi=Wiα(ΔWi+μΔWi1)

即。通过学习率扩展一切吗?

Answers:


10

与网络中使用反向传播与动量不同的权重w ^ ķ个校正重量W¯¯ ķ由下式给出nw ^ķ一世w ^ķ

其中ÈΔw ^ķ一世=-αËw ^ķ+μΔw ^ķ一世-1个是损耗WRT的变化W ^ķËw ^ķw ^ķ

动量速率的引入允许衰减梯度下降中的振荡。通过线性情况下的本征空间分析,可以最好地理解该思想背后的几何思想。如果最小特征值和最大特征值之间的比率较大,则即使由于矩阵条件而导致的学习速率较大,执行梯度下降的速度也会很慢。动量在与较低和较大特征值相关的特征向量之间的更新中引入了一些平衡。

有关更多详细信息,请参阅

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf


背带代表什么?
David Richerby

好,所以动量项被计算当掺入术语,而不是计算“新的”权重值时,上加入?只是为了澄清,如果你的长期μ w ^ ķ- 1 BE μ Δ w ^ ķ- 1 ?还是它是实际重量的一部分而不是比率的变化?感谢您的回复以及该论文的链接。Δw ^ķμw ^ķ一世-1个μΔw ^ķ一世-1个
guskenny83 2014年

感谢您指出错误。当然,Δw ^ķ一世-1个
尼科

“损失的变化”是什么意思?就像“错误的变化”吗?
starbeamrainbowlabs

它仅表示相对于权重的误差的导数。
nico
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.