神经网络中没有偏置单元的正则化项


Answers:


14

过度拟合通常需要模型的输出对输入数据的细微变化敏感(即,要精确地插值目标值,则拟合函数中往往需要很大的曲率)。偏差参数不会影响模型的曲率,因此对它们进行正则化通常也没什么意义。


5

L2(或L1)背后的动机是通过限制权重,限制网络,您不太可能过拟合。限制偏差的权重几乎没有意义,因为偏差是固定的(例如b = 1),因此像神经元截距一样起作用,这赋予了较高的灵活性。


1

我要补充一点,偏差项通常是用1而不是平均值来初始化的0,因此我们可能想对它进行正则化,以使其与常数值的距离不至于太远,1例如do或1/2*(bias-1)^2而不是1/2*(bias)^2

也许-1通过减去偏差的平均值代替零件可能会有所帮助,也许是每层平均值或整体平均值。但这只是我正在做的一个假设(关于均值减法)。

这也都取决于激活功能。例如:如果将偏差调整为高常数偏移量,则S型曲线可能不利于消除梯度。


0

该教程说:“将权重衰减应用于偏置单元通常只会对最终网络产生很小的影响”,因此,如果这样做没有帮助,则可以停止这样做以消除一个超参数。如果您认为对偏移量进行正则化对您的设置有所帮助,请对其进行交叉验证。尝试没有害处。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.