2
何时在统一初始化上使用(He或Glorot)正常初始化?批处理规范化有什么影响?
我知道残留网络(ResNet)使He正常的初始化很流行。在ResNet中,使用He常规初始化,而第一层使用He统一初始化。 我浏览过ResNet论文和“深入整流器”论文(他的初始化论文),但是我没有发现任何有关普通init和统一init的信息。 也: 批处理规范化使我们可以使用更高的学习率,而对初始化则不必那么小心。 在批处理规范化论文的摘要中,可以说批处理规范化使我们在初始化时不那么小心。 ResNet本身仍在关注何时使用普通init和统一init(而不是仅使用统一init)。 所以: 何时使用(He或Glorot)正态分布初始化而不是统一初始化? 批处理归一化的正态分布初始化效果是什么? 除了注释: 使用正常的init和Batch Normalization进行押韵,但是我还没有找到支持这一事实的论文。 我知道ResNet使用He init而不是Glorot init,因为He init在深度网络上的性能更好。 我了解Glorot初始化与He初始化。 我的问题是关于普通vs统一初始化。