如果您查看文档http://keras.io/optimizers/,则SGD中有一个用于衰减的参数。我知道随着时间的推移,这会降低学习率。但是,我无法弄清楚它是如何工作的。它是一个乘以学习率的值,例如lr = lr * (1 - decay)
指数吗?另外,如何查看模型使用的学习率?当我model.optimizer.lr.get_value()
经过几次拟合后进行打印时,即使我设置了衰减,它也会恢复原始的学习速度。
我还必须设置nesterov = True来使用动量,还是可以使用两种不同类型的动量?例如这样做有一点意义sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
是指个体SGD步骤的数目,而不是历元的数目,rigt?