如何确定梯度下降的最佳学习率?我在想,如果成本函数返回的值比上一次迭代的值大(算法不会收敛),我可以自动调整它,但是我不确定是否应该采用新值。
willamette.edu/~gorr/classes/cs449/momrate.html使用局部速率自适应形式尝试退火:µ(t)= µ(0)/(1 + t / T);错误符号更改时,将t递增。
—
克里斯(Chris