我已经阅读了几篇有关内核初始化的论文,许多论文提到它们使用内核的L2正则化(通常使用)。
除了用恒定零初始化偏差而不对其进行正则化之外,还有人做其他事情吗?
内核初始化文件
- Mishkin和Matas:您需要的只是一个好的初始化
- Xavier Glorot和Yoshua Bengio:了解训练深度前馈神经网络的难度
- 他等人:深入研究整流器:在ImageNet分类上超越人类水平的性能
我已经阅读了几篇有关内核初始化的论文,许多论文提到它们使用内核的L2正则化(通常使用)。
除了用恒定零初始化偏差而不对其进行正则化之外,还有人做其他事情吗?
Answers:
从Stanford CS231N注释(http://cs231n.github.io/neural-networks-2/):
初始化偏差。将偏差初始化为零是可能且常见的,因为不对称破坏是由权重中的较小随机数提供的。对于ReLU非线性,某些人喜欢对所有偏差使用较小的常数(例如0.01),因为这可以确保所有ReLU单元在开始时均会触发,从而获得并传播一定的梯度。但是,尚不清楚这是否提供了一致的改进(实际上,一些结果似乎表明这种方法的效果更差),并且更简单地使用0偏置初始化更为常见。
在LSTM中,通常将偏差初始化为1-例如,参见http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf。