在神经网络的背景下,学习率和体重下降之间有什么区别?
在神经网络的背景下,学习率和体重下降之间有什么区别?
Answers:
学习速率是确定更新步骤对权重的当前值有多大影响的参数。权重衰减是权重更新规则中的另一个术语,如果未安排其他更新,则权重将导致权重呈指数衰减到零。
假设我们有一个成本或误差函数要最小化。梯度下降告诉我们在中最陡下降的方向上修改权重: 其中是学习率,如果它很大,则权重会有相应的大修改(通常不应太大),否则将超出成本函数中的局部最小值。
为了有效地限制模型中自由参数的数量,以避免过度拟合,可以对成本函数进行正则化。一种简单的方法是在权重上引入零均值高斯先验,等效于将成本函数更改为。在实践中,这会惩罚较大的权重,并有效限制了模型的自由度。正则化参数确定如何权衡较大的权衡代价来权衡原始成本
将梯度下降应用于这个新的成本函数,我们得到: 来自正则化 的新项导致权重与其大小成比例地衰减。
除了@mrig的答案(+1),对于神经网络的许多实际应用,最好使用更高级的优化算法,例如Levenberg-Marquardt(中小型网络)或缩放的共轭梯度下降(中大型)网络),因为它们将更快,并且不需要设置学习率(这两种算法本质上都使用曲率和梯度来适应学习率)。任何体面的神经网络软件包或库都将实现这些方法之一,而没有的任何软件包都可能已过时。我将NETLAB库用于MATLAB,这是一个很好的工具。
我简单地说:
learning_rate:它控制神经网络模型学习问题的速度。
参考:https : //machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay:这是一种正则化技术,用于避免过度拟合。
参考:https : //metacademy.org/graphs/concepts/weight_decay_neural_networks