Answers:
ReLU函数为通常,将其逐元素应用于其他函数的输出,例如矩阵向量乘积。在MLP用法中,整流器单元会替换所有其他激活功能,但读出层可能除外。但是我想如果您愿意,您可以将它们混合搭配。
ReLU改善神经网络的一种方法是加快训练速度。梯度计算非常简单(0或1取决于的符号)。同样,ReLU的计算步骤也很容易:任何负元素都设置为0.0-无指数,无乘法或除法运算。
逻辑和双曲正切网络的梯度小于ReLU的正部分。这意味着积极的部分会随着训练的进行而更快地更新。但是,这是有代价的。左侧的0梯度有其自身的问题,称为“死神经元”,其中梯度更新将输入值设置为ReLU,以使输出始终为零。改进的ReLU单元(例如ELU(或Leaky ReLU或PReLU等))可以改善这一点。
。相比之下,S型单元的斜率最大。另一方面,由于(近似),在接近0的区域中的输入效果更好。
需要指出的重要一件事是ReLU是幂等的。假设ReLU为,很容易看出对于任何有限合成都是正确的。该属性对于深度神经网络非常重要,因为网络中的每一层都应用非线性。现在,让我们将1-3个Sigmoid-family函数重复1-3次:
您可以立即看到S型函数“压缩”其输入,从而导致梯度问题消失:随着(重复应用的次数)接近无穷大,导数接近零。
ReLU是具有输入x的最大函数(x,0),例如来自卷积图像的矩阵。然后,ReLU将矩阵x中的所有负值都设置为零,而所有其他值保持不变。
ReLU是在卷积之后计算的,因此是非线性激活函数,如tanh或Sigmoid。
Softmax是神经网络末端的分类器。这是逻辑回归以将输出正规化为0到1之间的值。(替代方法是SVM分类器)。
CNN前向通行证,例如:输入->转换-> ReLU->池->转换-> ReLU->池-> FC-> softmax
ReLU是一个文字开关。如果使用电气开关,则1伏特输入将输出1伏特,n伏特输入打开时将输出n伏特。当您决定切换为零时,开/关给出的图形与ReLU完全相同。多个加权和的加权和(点积)仍然是线性系统。对于特定输入,ReLU开关分别打开或关闭。这导致了从输入到输出的特定线性投影,因为...的加权和的各种加权和通过开关连接在一起。对于特定的输入和特定的输出神经元,存在一个加权总和的复合系统,实际上可以将其汇总为单个有效加权总和。由于ReLU将状态切换为零,因此输出中不会突然出现输入连续变化的情况。
还有其他一些数字有效的加权和(点积)算法,例如FFT和Walsh Hadamard变换。您没有理由不能将其合并到基于ReLU的神经网络中并从计算收益中受益。(例如,固定滤波器组神经网络。)