有没有文献研究随机梯度下降时小批量的选择?以我的经验,这似乎是一个经验选择,通常是通过交叉验证或使用不同的经验法则发现的。
随着验证错误的减少,逐渐增加小批量的大小是否是一个好主意?这将对泛化错误产生什么影响?我是否会使用极小的微型批处理程序进行更好的情况更新数十万次?在数量极少与批量之间保持平衡的状态下,我会更好吗?
我是否应该根据数据集的大小或数据集中预期的要素数量来缩放微型批处理的大小?
我显然对实现小批量学习方案有很多疑问。不幸的是,我阅读的大多数论文并没有真正说明他们如何选择此超参数。我从Yann LeCun等作家那里取得了一些成功,尤其是从Tricks of the Trade的论文收集中获得了成功。但是,我仍然没有看到这些问题得到充分解决。是否有人对论文有任何建议,或者关于在尝试学习功能时可以用来确定良好的小批量大小的标准的建议?
在这个话题上,我似乎并没有获得多少成功。是否有更好的堆栈交换站点来询问诸如此类的机器学习或深度学习问题?
—
Jason_L_Bens