似乎在最小化训练神经网络的成本函数时,自适应矩估计(Adam)优化器几乎总是工作得更好(更快,更可靠地达到全局最小值)。
为什么不总是使用亚当?为什么还要使用RMSProp或动量优化器呢?
1
我不相信有任何严格,正式的方式来支持这两种说法。所有这些纯粹是经验性的,因为误差面是未知的。根据经验,纯粹从m的经验来看,ADAM在其他人失败(实例分割)的情况下表现良好,尽管并非没有缺点(收敛不是单调的)
—
Alex
亚当收敛更快。SGD速度较慢,但泛化效果更好。因此,最后一切都取决于您的特定情况。
—
阿卡拉(Agcala)