为什么不总是使用ADAM优化技术？

13

似乎在最小化训练神经网络的成本函数时，自适应矩估计（Adam）优化器几乎总是工作得更好（更快，更可靠地达到全局最小值）。

为什么不总是使用亚当？为什么还要使用RMSProp或动量优化器呢？

neural-network optimization

— PyRsquared
source

1

我不相信有任何严格，正式的方式来支持这两种说法。所有这些纯粹是经验性的，因为误差面是未知的。根据经验，纯粹从m的经验来看，ADAM在其他人失败（实例分割）的情况下表现良好，尽管并非没有缺点（收敛不是单调的）

— Alex

2

亚当收敛更快。SGD速度较慢，但泛化效果更好。因此，最后一切都取决于您的特定情况。

— 阿卡拉（Agcala）

13

使用不止一种方法（合奏）通常具有价值，因为每种方法都有其弱点。

— 克里斯托弗·克劳斯
source

5

您还应该看一下这篇文章，比较不同的梯度下降优化器。正如您在下面看到的那样，亚当显然不是某些任务的最佳优化器，因为许多任务收敛得更好。

仅作记录：在链接的文章中，他们提到了ADAM的一些缺陷，并提出了AMSGrad作为解决方案。但是，他们得出的结论是，（在撰写本文时）AMSGrad在实践中是否胜过ADAM还没有定论。

— 路易斯