批次归一化是否意味着乙状结肠比ReLU更好地工作？

9

批次归一化和ReLU都是消失梯度问题的解决方案。如果我们使用批处理规范化，那么我们应该使用S型吗？还是ReLU的功能使其即使在使用batchnorm时仍值得使用？

我想在batchnorm中完成的规范化将向负发送零次激活。这是否意味着batchnorm解决了“ Dead ReLU”问题？

但是tanh和logistic的连续性仍然很吸引人。如果我使用batchnorm，tanh是否会比ReLU更好？

我确定答案取决于。那么，您的经验中有什么起作用，您的应用程序的显着特征是什么？

deep-learning batch-normalization

— generic_user
source

即使论文建议在激活前使用BatchNorm，但实际上发现如果在之后使用BN，则可以得到更好的解决方案。如果我不忽略应该表示的意思，那么在后一种情况下，BN对激活没有影响。但是当然，这是一个悬而未决的问题，如果在使用ReN之前和之后使用BN会比ReLU更好地工作。我认为没有。因为ReLU仍然具有其他优势，例如更简单的派生。但是我也很好奇。也许有人在这个领域有经验。

— oezguensi

1

看到，批处理规范化的基本概念是（摘自“中型”文章）

我们通过调整和缩放激活来标准化输入层。例如，当我们具有从0到1以及从1到1000的特征时，我们应该将它们标准化以加快学习速度。如果输入层从中受益，为什么不对隐藏层中的值也做同样的事情，这些值一直在变化，并且训练速度提高了10倍甚至更多倍。

在这里阅读文章。

$frac{1}/{(1+1/e)}$

— 狂人
source

0

madman正确回答了您关于批处理规范化的问题，让我回答您的第二部分，即连续函数看似吸引人，但relu比所有函数都更好，而这种说法并不是我的观点。Hinton引用了它：“我们是愚蠢的人，他们一直在使用乙状结肠作为激活功能，并且花了30年的时间才意识到，在不了解其形式的情况下，它永远不会让您的神经元进入学习状态，它总是饱和的，所以它是派生的，他称自己和其他所有人都傻眼了。”所以选择激活函数仅仅是因为它是连续的，而不是在研究它会如何影响您的神经元。

注意：如果您正在研究神经网络，我建议您将神经网络视为大型且深层的复合函数，以便了解有效的方法以及其起作用的原因，您需要了解神经网络如何在某个较高维度上创建大量数据。 ”，其中流形的优劣取决于您对函数的选择以及一个函数在作为输入提供给其他函数时如何转换其他函数输出的数据。

— 夸瓦·维萨尔
source