数据科学 batch-normalization

论文：层归一化，循环批归一化（2016）和批归一化RNN（2015）有什么区别？

因此，最近有一层“ 图层归一化”文章。Keras 上也有一个实现。但我记得有几篇论文标题为Recurrent Batch Normalization（Cooijmans，2016）和Batch Normalized Recurrent Neural Networks（Laurent，2015）。这三个之间有什么区别？我不了解此“相关工作”部分：批处理规范化先前已扩展到递归神经网络[Laurent等，2015，Amodei等，2015，Cooijmans等，2016]。先前的工作[Cooijmans等，2016]提出，通过为每个时间步保留独立的标准化统计数据，可以获得最佳的循环批标准化性能。作者表明，将循环批归一化层中的增益参数初始化为0.1，会对模型的最终性能产生重大影响。我们的工作还与体重归一化有关[Salimans和Kingma，2016]。在权重归一化中，使用输入权重的L2范数代替方差来归一化对神经元的求和输入。使用预期统计量应用权重归一化或批次归一化等效于对原始前馈神经网络进行不同的参数化。在路径归一化的SGD中研究了ReLU网络中的重新参数化[Neyshabur et al。，2015]。但是，我们提出的层归一化方法不是对原始神经网络进行重新参数化。因此，层归一化模型具有与其他方法不同的不变性，我们将在下一节中研究

30 deep-learning rnn normalization batch-normalization

批次归一化是否意味着乙状结肠比ReLU更好地工作？

批次归一化和ReLU都是消失梯度问题的解决方案。如果我们使用批处理规范化，那么我们应该使用S型吗？还是ReLU的功能使其即使在使用batchnorm时仍值得使用？我想在batchnorm中完成的规范化将向负发送零次激活。这是否意味着batchnorm解决了“ Dead ReLU”问题？但是tanh和logistic的连续性仍然很吸引人。如果我使用batchnorm，tanh是否会比ReLU更好？我确定答案取决于。那么，您的经验中有什么起作用，您的应用程序的显着特征是什么？

9 deep-learning batch-normalization

Questions tagged «batch-normalization»