偏差应如何初始化和正规化?


13

我已经阅读了几篇有关内核初始化的论文,许多论文提到它们使用内核的L2正则化(通常使用)。λ=0.0001

除了用恒定零初始化偏差而不对其进行正则化之外,还有人做其他事情吗?

内核初始化文件

Answers:


15

从Stanford CS231N注释(http://cs231n.github.io/neural-networks-2/):

初始化偏差。将偏差初始化为零是可能且常见的,因为不对称破坏是由权重中的较小随机数提供的。对于ReLU非线性,某些人喜欢对所有偏差使用较小的常数(例如0.01),因为这可以确保所有ReLU单元在开始时均会触发,从而获得并传播一定的梯度。但是,尚不清楚这是否提供了一致的改进(实际上,一些结果似乎表明这种方法的效果更差),并且更简单地使用0偏置初始化更为常见。

在LSTM中,通常将偏差初始化为1-例如,参见http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.