在梯度下降中使用非恒定的学习率,深度学习文学充满了巧妙的技巧。像指数衰减,RMSprop,Adagrad等之类的东西很容易实现,并且在每个深度学习包中都可用,但是在神经网络之外似乎并不存在。有什么理由吗?如果只是人们根本不在乎,是否有理由为什么我们不必在神经网络之外关心?
2
我认为线搜索或信任区域方法是“非恒定”学习率。
—
海涛杜
有许多非恒定梯度方法是独立于神经网络开发的。Barzilai-Borwein GD和Nesterov GD是两个突出的例子。
—
Sycorax说恢复莫妮卡
@Sycorax,但实际上它们是在NN之外日常使用的吗?
—
蒂姆
@Tim我不能说。当我需要在NN之外进行本地搜索时,可以使用二阶方法。但是,当我可能在后兜里摆弄一个可爱的把戏时,我为能更快地使用GD方法而感到兴奋。
—
Sycorax说恢复莫妮卡
值得注意的是(令我惊讶),我遇到了GBM不使用恒定学习率的情况,这让人有些惊讶。一个特别的例子是在LightGBM上实施DART。虽然原始论文没有使用越来越小的LR,但是默认情况下实际实现了。
—
usεr11852恢复单胞菌说,