2
什么是GELU激活?
我正在浏览使用GELU(高斯误差线性单位)的BERT论文,该论文将方程表示为 依次近似为GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) 您能简化方程式并解释它是如何近似的。