似乎在最小化训练神经网络的成本函数时,自适应矩估计(Adam)优化器几乎总是工作得更好(更快,更可靠地达到全局最小值)。
为什么不总是使用亚当?为什么还要使用RMSProp或动量优化器呢?
                
                1
              
                  我不相信有任何严格,正式的方式来支持这两种说法。所有这些纯粹是经验性的,因为误差面是未知的。根据经验,纯粹从m的经验来看,ADAM在其他人失败(实例分割)的情况下表现良好,尽管并非没有缺点(收敛不是单调的)
                
                
                  
                    —
                    Alex 
                    
                  
                
              
                  亚当收敛更快。SGD速度较慢,但泛化效果更好。因此,最后一切都取决于您的特定情况。
                
                
                  
                    —
                    阿卡拉(Agcala)