我认为使用Leaky ReLU而不是ReLU的优势在于,这样我们就不会消失梯度。参数化ReLU具有相同的优势,唯一的区别在于,负输入的输出斜率是可学习的参数,而在Leaky ReLU中则是超参数。
但是,我无法确定是否存在使用ReLU代替Leaky ReLU或Parametric ReLU更方便的情况。
我认为使用Leaky ReLU而不是ReLU的优势在于,这样我们就不会消失梯度。参数化ReLU具有相同的优势,唯一的区别在于,负输入的输出斜率是可学习的参数,而在Leaky ReLU中则是超参数。
但是,我无法确定是否存在使用ReLU代替Leaky ReLU或Parametric ReLU更方便的情况。
Answers:
将ReLU,超参数化的1泄漏变体以及在学习过程中具有动态参数化的变体相结合,会混淆两件事:
ReLU从来都不是参数化的原因是,使其变得多余将是多余的。在负域中,它是常数零。在非负域中,其导数是常数。由于激活输入向量已经被向量矩阵乘积所衰减(矩阵,立方体或超立方体中包含衰减参数),因此添加参数以改变非负域的常数导数没有任何有用的目的。 。
当激活中存在曲率时,不再将所有激活系数作为参数冗余。它们的值可能会极大地改变训练过程,从而改变收敛的速度和可靠性。
对于深度较深的网络,冗余会重新出现,并且在文献中的理论和实践中都有证据表明这一点。
因此,对于较浅的网络,不使用有利于避免上述针对较浅网络的饱和问题的ELU品种。
因此,必须决定两件事。
综上所述,选择绝不是方便的选择。
脚注
[1]超参数是影响通过该层的信令的参数,这些参数不属于该层的输入衰减。衰减权重是参数。其他任何参数化都在超参数集中。这可能包括学习率,反向传播中高频的衰减以及为整个层(如果不是整个网络)设置的各种各样的其他学习控制。
[2]如果梯度为零,则参数将无法进行任何智能调整,因为调整的方向未知,其大小必须为零。学习停止。
[3]如果由于CPU将极小的值舍入到最接近的数字表示而产生的混沌噪声在旨在传播回各层的校正信号中占主导地位,则校正变得毫无意义,并且学习将停止。
[4]收敛速度是一种速度的度量(相对于微秒或相对于算法的迭代索引),在该速度中学习结果(系统行为)接近被认为足够好的速度。通常,这与某些正式的接受标准(学习)在某种程度上接近。
[5]具有曲率的函数是无法直观显示为笔直或平坦的函数。抛物线具有曲率。一条直线不行。鸡蛋的表面有弯曲。完美的平面并非如此。在数学上,如果函数的Hessian的任何元素都不为零,则函数具有曲率。