为什么不总是使用ADAM优化技术?


13

似乎在最小化训练神经网络的成本函数时,自适应矩估计(Adam)优化器几乎总是工作得更好(更快,更可靠地达到全局最小值)。

为什么不总是使用亚当?为什么还要使用RMSProp或动量优化器呢?


1
我不相信有任何严格,正式的方式来支持这两种说法。所有这些纯粹是经验性的,因为误差面是未知的。根据经验,纯粹从m的经验来看,ADAM在其他人失败(实例分割)的情况下表现良好,尽管并非没有缺点(收敛不是单调的)
Alex

2
亚当收敛更快。SGD速度较慢,但​​泛化效果更好。因此,最后一切都取决于您的特定情况。
阿卡拉(Agcala)

Answers:



5

您还应该看一下这篇文章,比较不同的梯度下降优化器。正如您在下面看到的那样,亚当显然不是某些任务的最佳优化器,因为许多任务收敛得更好。


仅作记录:在链接的文章中,他们提到了ADAM的一些缺陷,并提出了AMSGrad作为解决方案。但是,他们得出的结论是,(在撰写本文时)AMSGrad在实践中是否胜过ADAM还没有定论。
路易斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.