我知道残留网络(ResNet)使He正常的初始化很流行。在ResNet中,使用He常规初始化,而第一层使用He统一初始化。
我浏览过ResNet论文和“深入整流器”论文(他的初始化论文),但是我没有发现任何有关普通init和统一init的信息。
也:
批处理规范化使我们可以使用更高的学习率,而对初始化则不必那么小心。
在批处理规范化论文的摘要中,可以说批处理规范化使我们在初始化时不那么小心。
ResNet本身仍在关注何时使用普通init和统一init(而不是仅使用统一init)。
所以:
- 何时使用(He或Glorot)正态分布初始化而不是统一初始化?
- 批处理归一化的正态分布初始化效果是什么?
除了注释:
- 使用正常的init和Batch Normalization进行押韵,但是我还没有找到支持这一事实的论文。
- 我知道ResNet使用He init而不是Glorot init,因为He init在深度网络上的性能更好。
- 我了解Glorot初始化与He初始化。
- 我的问题是关于普通vs统一初始化。