数据科学 activation-function

2

激活函数用于w * x + b在神经网络的类型的线性输出中引入非线性。对于激活功能（例如Sigmoid），我能够直观地理解。我了解ReLU的优势，它可以避免反向传播过程中死亡的神经元。但是，我无法理解为什么ReLU的输出为线性时为什么将其用作激活函数？如果不引入非线性，激活函数的全部意义就不会被破坏吗？

19 machine-learning neural-network deep-learning activation-function

2

什么是GELU激活？

我正在浏览使用GELU（高斯误差线性单位）的BERT论文，该论文将方程表示为依次近似为GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) 您能简化方程式并解释它是如何近似的。

18 activation-function bert mathematics

1

为什么ReLU比其他激活功能更好

这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度，但是我猜Relu它有一个缺点，那就是它的期望值。对的输出没有限制Relu，因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家，而不是sigmoid。原因是的期望值tanh等于零，并且有助于更深层次的学习，从而在神经网络中更快地学习。Relu没有这个特性，但是如果我们不考虑它的派生优势，为什么它会如此出色。而且，我猜导数也可能会受到影响。因为激活（输出Relu）用于计算更新规则。

17 machine-learning neural-network deep-learning gradient-descent activation-function

1

一般而言，神经网络中激活函数的差异

我研究了神经网络的激活函数类型。这些函数本身非常简单，但是应用程序的差异并不完全清楚。合理的是，可以根据所需的二进制/连续输出来区分逻辑类型函数和线性类型函数，但是S型函数比简单线性函数有何优势？例如，对我而言，ReLU尤其难以理解：使用一个在正输入情况下表现为线性，而在负输入情况下表现为“平坦”的函数有什么意义呢？这背后的直觉是什么？还是仅仅是简单的试错法，仅此而已？

15 neural-network activation-function

Questions tagged «activation-function»