哪种优化方法最适合LSTM?


19

我一直在使用theano来试验LSTM,并且想知道哪种优化方法(SGD,Adagrad,Adadelta,RMSprop,Adam等)最适合LSTM?是否有关于该主题的研究论文?

另外,答案是否取决于我使用LSTM的应用程序类型?如果是这样,我正在使用LSTM进行文本分类(首先将文本转换为单词向量)。

最后,对于RNN,答案是相同还是不同?任何指向研究论文或个人见解的指针将不胜感激!

LSTM似乎很强大,我有兴趣学习更多有关如何最好地使用它们的知识。

Answers:


7

具有讽刺意味的是,LSTM的最佳优化器本身就是LSTM:https://arxiv.org/abs/1606.04474 通过梯度下降学习通过梯度下降学习。

基本思想是使用神经网络(这里特别是LSTM网络)来共同学习和教导原始网络的梯度。这就是所谓的元学习。

这种方法虽然在2000年由Juergen Schmidhuber提出,但直到最近才证明在RNN训练中优于其他优化器。(有关美观的图形,请参见原始论文)


您能告诉我们链接说什么来扩展吗?
mdewey

修改为您的荣幸。由于最初的问题是“哪种优化方法最适合LSTM?” 而不是“ LSTM的最佳优化方法如何工作”,我就这样说了。
Anona112 '16

4

通常,对于在哪种情况下使用哪种优化方法,没有明确的证据。对这些方法在不同情况下的行为进行了一些分析,但没有结论。如果您想深入研究这些东西,那么我建议:http : //papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-Dimension-non-convex-优化.pdf

为了至少为您提供一些答案,我认为,优化例程的配置通常比实际例程本身更重要。

此外,我建议您调查论文,看看正在使用什么技术。例如,Alex Graves在他有关生成序列的大多数出版物中都使用RMSprop。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.