动量用于减少连续迭代中权重变化的波动:
È(瓦特)瓦特η
其中是误差函数, -权重向量,学习率。
重量衰减会影响重量变化:
问题是,在反向传播过程中将这两种技巧结合在一起是否有意义,并且会产生什么效果?
1
您是说说ωi(t + 1)=ωi-ηE /∂wi+αΔωi(t),而不是Δωi(t + 1)=ωi-η∂E/∂wi+αΔωi(t)吗?
—
hakunamatata 2016年