批次归一化和ReLU都是消失梯度问题的解决方案。如果我们使用批处理规范化,那么我们应该使用S型吗?还是ReLU的功能使其即使在使用batchnorm时仍值得使用?
我想在batchnorm中完成的规范化将向负发送零次激活。这是否意味着batchnorm解决了“ Dead ReLU”问题?
但是tanh和logistic的连续性仍然很吸引人。如果我使用batchnorm,tanh是否会比ReLU更好?
我确定答案取决于。那么,您的经验中有什么起作用,您的应用程序的显着特征是什么?
批次归一化和ReLU都是消失梯度问题的解决方案。如果我们使用批处理规范化,那么我们应该使用S型吗?还是ReLU的功能使其即使在使用batchnorm时仍值得使用?
我想在batchnorm中完成的规范化将向负发送零次激活。这是否意味着batchnorm解决了“ Dead ReLU”问题?
但是tanh和logistic的连续性仍然很吸引人。如果我使用batchnorm,tanh是否会比ReLU更好?
我确定答案取决于。那么,您的经验中有什么起作用,您的应用程序的显着特征是什么?
Answers:
madman正确回答了您关于批处理规范化的问题,让我回答您的第二部分,即连续函数看似吸引人,但relu比所有函数都更好,而这种说法并不是我的观点。Hinton引用了它:“我们是愚蠢的人,他们一直在使用乙状结肠作为激活功能,并且花了30年的时间才意识到,在不了解其形式的情况下,它永远不会让您的神经元进入学习状态,它总是饱和的,所以它是派生的,他称自己和其他所有人都傻眼了。”所以选择激活函数仅仅是因为它是连续的,而不是在研究它会如何影响您的神经元。
注意:如果您正在研究神经网络,我建议您将神经网络视为大型且深层的复合函数,以便了解有效的方法以及其起作用的原因,您需要了解神经网络如何在某个较高维度上创建大量数据。 ”,其中流形的优劣取决于您对函数的选择以及一个函数在作为输入提供给其他函数时如何转换其他函数输出的数据。