训练神经网络时,一个超参数是一个小批量的大小。常见的选择是每个小批量有32、64和128个元素。
是否有任何规则/准则,小批量应该多大?是否有任何出版物调查了培训的影响?
除了适合内存之外?
—
Ehsan M. Kermani
是。例如,是否有出版物说“批量越大越好”(只要能容纳在内存中)?
—
马丁·托马
@ EhsanM.Kermani我认为这很重要。我在CIFAR-100上进行了几次运行,并且根据批次大小获得了不同的结果(及早停止,因此希望过拟合不会成为问题)
—
Martin Thoma
较大的计算速度更快(有效),较小的计算速度更快,泛化效果更好;cf. 随机优化的有效小批量训练和该RNN研究。从经验上可以找到解决问题的最佳方法。
—
Emre'4
Blei等人最有见地的论文刚刚发表:随机梯度下降作为近似贝叶斯推论
—
Emre