这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu它有一个缺点,那就是它的期望值。对的输出没有限制Relu,因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家,而不是sigmoid。原因是的期望值tanh等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu)用于计算更新规则。
                  与ReLU一起进行某种规格化(例如批处理规格化,层规格化)是很常见的。这将调整输出范围。
                
                
                  
                    —
                    ncasas 
                    
                  
                
              
                  @ncasas但是在
                
                  
                    —
                    媒体
                    
                  
                
              CNN标准化输出中relu并不常见吗?至少我从未见过。
                
                  您是对的,在不是很深的CNN中,没有批量标准化是正常的。您是否考虑过体重初始值的作用?(例如,他初始化)
                
                
                  
                    —
                    ncasas 
                    
                  
                
              
                  是的,实际上,它们以某种方式防止了梯度的消失/爆炸,我猜经过一些迭代后输出会变大。
                
                
                  
                    —
                    媒体