偏差应如何初始化和正规化？

我已经阅读了几篇有关内核初始化的论文，许多论文提到它们使用内核的L2正则化（通常使用）。 $\lambda = 0.0001$

除了用恒定零初始化偏差而不对其进行正则化之外，还有人做其他事情吗？

内核初始化文件

Mishkin和Matas：您需要的只是一个好的初始化
Xavier Glorot和Yoshua Bengio：了解训练深度前馈神经网络的难度
他等人：深入研究整流器：在ImageNet分类上超越人类水平的性能

neural-network

— 马丁·托马
source

从Stanford CS231N注释（http://cs231n.github.io/neural-networks-2/）：

初始化偏差。将偏差初始化为零是可能且常见的，因为不对称破坏是由权重中的较小随机数提供的。对于ReLU非线性，某些人喜欢对所有偏差使用较小的常数（例如0.01），因为这可以确保所有ReLU单元在开始时均会触发，从而获得并传播一定的梯度。但是，尚不清楚这是否提供了一致的改进（实际上，一些结果似乎表明这种方法的效果更差），并且更简单地使用0偏置初始化更为常见。

在LSTM中，通常将偏差初始化为1-例如，参见http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf。

— 卢卡斯·比瓦尔德（Lukas Biewald）
source