在线上许多教程都谈论梯度下降,并且几乎所有教程都使用固定步长(学习率)。为什么不使用线搜索(例如回溯线搜索或精确线搜索)?
5
“而且几乎所有人都使用固定的步长”-您确定吗?假定“学习率”超参数可使步长适应条件。一个非常流行的亚当算法确实适应了步长
—
Aksakal,
嗯,实际上,自适应步长梯度法至少在2011年就出现了,甚至在Wikipedia 随机梯度下降页面上也有引用。这不是完全新闻。甚至香草SGD几乎总是以学习率使用,学习率会随着迭代次数(进度表)而变化。现在,一个非常好的问题是:为什么,即使有这么多的自适应梯度下降的方法,SGD仍然占主导地位的深度学习世界?这个问题看起来并不简单。
—
DeltaIV '18年
回溯线搜索可确定方向,然后寻找减少功能的方法。因此,除非您有明智的选择搜索方向的方法,否则您将需要进行繁琐的优化。
—
Alex R.
我认为行搜索对SGD(与[batch]梯度下降相反)没有意义-所以我要说这就是原因。
—
seanv507
我怀疑行搜索不是很流行的原因是梯度下降中的批处理。您得到一个批处理,然后计算梯度。由于渐变中的噪声,来回走线没有多大意义。最好继续进行下一批,同时可能要逐步调整步长。
—
阿克萨卡尔州