(最小)批量梯度中梯度的总和或平均值是否合适?


15

当我实现了迷你批次梯度样例时,我只是对训练批次中所有示例的梯度进行平均。但是,我注意到,现在的最佳学习率远远高于在线梯度样例。我的直觉是,这是因为平均梯度噪声较小,因此可以更快地遵循。因此,也许仅仅总结一批的梯度也是有意义的。无论如何,这些值可以为正也可以为负。

我知道这只是一个恒定因素,可以使用学习率来平衡。但是我不知道科学家们同意哪个定义,以便我可以从神经网络论文中复制结果。

通常是否将批次的总梯度除以批次大小?

Answers:


21

平均。

范例:吴彦祖(Coursera)的机器学习课程笔记亚历克斯·霍尔豪斯(Alex Holehouse)编撰的吴安德(笔记。

对各个样本的梯度求和,您将获得更加平滑的梯度。批次越大,用于更新重量的最终梯度就越平滑。

将总和除以批次大小并采用平均梯度具有以下效果:

  1. 重量的大小不会成比例地增加。将L2正则化添加到权重更新会惩罚较大的权重值。这通常可以提高泛化性能。取平均值,尤其是当梯度恰好指向相同方向时,请避免权重过大。
  2. 梯度的大小与批量大小无关。这样可以比较使用不同批次大小的其他实验的重量。
  3. 用学习率抵消批量大小的影响可以在数值上等效,但是最终会得到特定于实现的学习率。如果人们无法与您使用的参数范围相关,那么很难传达您的结果和实验设置,并且他们将无法再现您的实验。

平均可实现更清晰的可比性,并使梯度幅度与批次大小无关。有时,选择批量大小会受到您拥有的计算资源的限制,并且您希望在评估模型时减轻这种影响。


链接现已
消失

1
更新的链接,无法再链接到原始幻灯片,因此选择了Alex Holehouse精心编写的笔记。
ypx

本教程似乎是求和而不是求平均值。.deeplearning.net/tutorial/gettingstarted.html#regularization
AD
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.