神经网络中没有偏置单元的正则化项

14

根据该深度学习教程，权重衰减（正则化）通常不应用于偏见项b为什么？

它背后的意义（直觉）是什么？

machine-learning neural-networks bias regularization

— 哈西特
source

我想我以前看过一个非常相似的问题，我只是找不到...也许您应该复查相关问题，然后才能找到答案。另外，也许这可能会有所帮助。

— 理查德·哈迪

14

过度拟合通常需要模型的输出对输入数据的细微变化敏感（即，要精确地插值目标值，则拟合函数中往往需要很大的曲率）。偏差参数不会影响模型的曲率，因此对它们进行正则化通常也没什么意义。

— 迪克兰有袋动物
source

5

L2（或L1）背后的动机是通过限制权重，限制网络，您不太可能过拟合。限制偏差的权重几乎没有意义，因为偏差是固定的（例如b = 1），因此像神经元截距一样起作用，这赋予了较高的灵活性。

— 拉玛略
source

1

我要补充一点，偏差项通常是用1而不是平均值来初始化的0，因此我们可能想对它进行正则化，以使其与常数值的距离不至于太远，1例如do或1/2*(bias-1)^2而不是1/2*(bias)^2。

也许-1通过减去偏差的平均值代替零件可能会有所帮助，也许是每层平均值或整体平均值。但这只是我正在做的一个假设（关于均值减法）。

这也都取决于激活功能。例如：如果将偏差调整为高常数偏移量，则S型曲线可能不利于消除梯度。

— 纪尧姆·谢瓦利埃（Guillaume Chevalier）
source

0

该教程说：“将权重衰减应用于偏置单元通常只会对最终网络产生很小的影响”，因此，如果这样做没有帮助，则可以停止这样做以消除一个超参数。如果您认为对偏移量进行正则化对您的设置有所帮助，请对其进行交叉验证。尝试没有害处。

— 埃姆雷
source