Answers:
具有讽刺意味的是,LSTM的最佳优化器本身就是LSTM:https://arxiv.org/abs/1606.04474 通过梯度下降学习通过梯度下降学习。
基本思想是使用神经网络(这里特别是LSTM网络)来共同学习和教导原始网络的梯度。这就是所谓的元学习。
这种方法虽然在2000年由Juergen Schmidhuber提出,但直到最近才证明在RNN训练中优于其他优化器。(有关美观的图形,请参见原始论文)
通常,对于在哪种情况下使用哪种优化方法,没有明确的证据。对这些方法在不同情况下的行为进行了一些分析,但没有结论。如果您想深入研究这些东西,那么我建议:http : //papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-Dimension-non-convex-优化.pdf
为了至少为您提供一些答案,我认为,优化例程的配置通常比实际例程本身更重要。
此外,我建议您调查论文,看看正在使用什么技术。例如,Alex Graves在他有关生成序列的大多数出版物中都使用RMSprop。