训练神经网络时,一个超参数是一个小批量的大小。常见的选择是每个小批量有32、64和128个元素。
是否有任何规则/准则,小批量应该多大?是否有任何出版物调查了培训的影响?
                  除了适合内存之外?
                
                
                  
                    —
                    Ehsan M. Kermani 
                    
                  
                
              
                  是。例如,是否有出版物说“批量越大越好”(只要能容纳在内存中)?
                
                
                  
                    —
                    马丁·托马
                    
                  
                
              
                  @ EhsanM.Kermani我认为这很重要。我在CIFAR-100上进行了几次运行,并且根据批次大小获得了不同的结果(及早停止,因此希望过拟合不会成为问题)
                
                
                  
                    —
                    Martin Thoma 
                    
                  
                
              
                  较大的计算速度更快(有效),较小的计算速度更快,泛化效果更好;cf. 随机优化的有效小批量训练和该RNN研究。从经验上可以找到解决问题的最佳方法。
                
                
                  
                    —
                    Emre'4 
                    
                  
                
              
                  Blei等人最有见地的论文刚刚发表:随机梯度下降作为近似贝叶斯推论
                
                
                  
                    —
                    Emre