我正在使用Adam优化器训练一个用于图像定位的网络,有人建议我使用指数衰减。我不想尝试,因为Adam优化器本身会降低学习速度。但是那个家伙坚持说,他说他以前做过。所以我应该这样做,您的建议背后是否有任何理论依据?
Answers:
亚当的学习率是单一的,但它是最大的自适应率,所以我认为没有多少人会使用学习率调度。
由于自适应特性,默认速率相当可靠,但是有时您可能需要对其进行优化。您可以做的是,先从一个很小的比率开始,然后增加直到损失停止减少,然后找到最佳的默认比率,然后查看损失曲线的斜率,然后选择与损失的最快减少相关的学习率(而不是损失实际上最低的点)。杰里米·霍华德(Jeremy Howard)在fast.ai深度学习课程中提到了这一点,并在Cyclical Learning Rates论文中提到了这一点。
编辑:人们最近开始与亚当一起使用单周期学习率策略,并取得了不错的成绩。