14 根据该深度学习教程,权重衰减(正则化)通常不应用于偏见项b为什么? 它背后的意义(直觉)是什么? machine-learning neural-networks bias regularization — 哈西特 source 我想我以前看过一个非常相似的问题,我只是找不到...也许您应该复查相关问题,然后才能找到答案。另外,也许这可能会有所帮助。 — 理查德·哈迪
14 过度拟合通常需要模型的输出对输入数据的细微变化敏感(即,要精确地插值目标值,则拟合函数中往往需要很大的曲率)。偏差参数不会影响模型的曲率,因此对它们进行正则化通常也没什么意义。 — 迪克兰有袋动物 source
5 L2(或L1)背后的动机是通过限制权重,限制网络,您不太可能过拟合。限制偏差的权重几乎没有意义,因为偏差是固定的(例如b = 1),因此像神经元截距一样起作用,这赋予了较高的灵活性。 — 拉玛略 source
1 我要补充一点,偏差项通常是用1而不是平均值来初始化的0,因此我们可能想对它进行正则化,以使其与常数值的距离不至于太远,1例如do或1/2*(bias-1)^2而不是1/2*(bias)^2。 也许-1通过减去偏差的平均值代替零件可能会有所帮助,也许是每层平均值或整体平均值。但这只是我正在做的一个假设(关于均值减法)。 这也都取决于激活功能。例如:如果将偏差调整为高常数偏移量,则S型曲线可能不利于消除梯度。 — 纪尧姆·谢瓦利埃(Guillaume Chevalier) source
0 该教程说:“将权重衰减应用于偏置单元通常只会对最终网络产生很小的影响”,因此,如果这样做没有帮助,则可以停止这样做以消除一个超参数。如果您认为对偏移量进行正则化对您的设置有所帮助,请对其进行交叉验证。尝试没有害处。 — 埃姆雷 source