8
选择学习率
我目前正在SGD使用反向传播为神经网络实现随机梯度下降,尽管我了解其目的,但我对如何选择学习率的值存在一些疑问。 学习率是否与误差梯度的形状有关,因为它决定了下降率? 如果是这样,您如何使用此信息来告知您有关价值的决定? 如果不是那样,我应该选择哪种值,以及如何选择它们? 似乎您希望使用较小的值来避免过冲,但是如何选择一个值以免陷入局部最小值或花很长时间下降呢? 保持恒定的学习速度有意义吗?还是应该在接近梯度最小值时使用一些指标来更改其值? 简而言之:如何选择SGD的学习率?