2 为什么将ReLU用作激活功能? 激活函数用于w * x + b在神经网络的类型的线性输出中引入非线性。 对于激活功能(例如Sigmoid),我能够直观地理解。 我了解ReLU的优势,它可以避免反向传播过程中死亡的神经元。但是,我无法理解为什么ReLU的输出为线性时为什么将其用作激活函数? 如果不引入非线性,激活函数的全部意义就不会被破坏吗? 19 machine-learning neural-network deep-learning activation-function
2 什么是GELU激活? 我正在浏览使用GELU(高斯误差线性单位)的BERT论文,该论文将方程表示为 依次近似为GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) 您能简化方程式并解释它是如何近似的。 18 activation-function bert mathematics
1 为什么ReLU比其他激活功能更好 这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu它有一个缺点,那就是它的期望值。对的输出没有限制Relu,因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家,而不是sigmoid。原因是的期望值tanh等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu)用于计算更新规则。 17 machine-learning neural-network deep-learning gradient-descent activation-function
1 一般而言,神经网络中激活函数的差异 我研究了神经网络的激活函数类型。这些函数本身非常简单,但是应用程序的差异并不完全清楚。 合理的是,可以根据所需的二进制/连续输出来区分逻辑类型函数和线性类型函数,但是S型函数比简单线性函数有何优势? 例如,对我而言,ReLU尤其难以理解:使用一个在正输入情况下表现为线性,而在负输入情况下表现为“平坦”的函数有什么意义呢?这背后的直觉是什么?还是仅仅是简单的试错法,仅此而已? 15 neural-network activation-function