神经网络中的tanh与乙状结肠


16

对于我仍在加快步伐这一事实,我预先表示歉意。我试图了解使用tanh(映射-1到1)与sigmoid(映射0到1)进行神经元激活功能的优缺点。从我的阅读来看,这听起来像是一件微不足道的事情。在实践中,针对我的问题,我发现S型曲线更容易训练,而且奇怪的是,S型曲线似乎可以更好地找到一般的解决方案。我的意思是,当完成了S型曲线的训练后,它在参考(未经训练)的数据集上表现良好,而tanh版本似乎能够在训练数据上获得正确的答案,而对参考的表现却很差。这是针对相同的网络体系结构。

我的直觉是,使用乙状结肠,神经元几乎完全关闭更容易,因此不为后续层提供任何输入。tanh在这里比较困难,因为它需要完全取消其输入,否则它总是为下一层提供一个值。也许这种直觉是错误的。

长帖子。底线是什么,这应该有很大的不同吗?

Answers:


23

在西蒙·海金(Symon Haykin)的“神经网络:综合基础”一书中,我引用了以下解释:

为了使学习时间最小化,应避免使用非零均值输入。现在,就信号向量应用于多层感知器的第一个隐藏层中的神经元而言,在将应用于网络之前,很容易从每个元素中除去均值。但是,施加到网络其余隐藏层和输出层中的神经元的信号又如何呢?这个问题的答案在于网络中使用的激活功能的类型。如果激活函数是非对称的,例如在S型函数中,则每个神经元的输出将被限制为间隔。这样的选择引入了系统偏见的来源X [ 0 1 ]xx[0,1]对于那些位于网络第一层之外的神经元。为了克服这个问题,我们需要使用反对称激活函数,例如双曲正切函数。通过后一种选择,允许每个神经元的输出在区间采用正值和负值,在这种情况下,其平均值很可能为零。如果网络连通性很大,则与具有非对称激活函数的类似过程相比,具有反对称激活函数的反向传播学习可以产生更快的收敛速度(LeCun等,1991)。[1,1]

引用的参考资料是:

  • Y. LeCun,I。Kanter和SASolla:“误差表面的二阶性质:学习时间和泛化”,《神经信息处理系统进展》,第1卷。3,第918-924页,1991年。

另一个有趣的参考如下:

  • Y. LeCun,L。BottouG。Orr和K. Muller:“ Efficient BackProp ”,在Orr,G.和Muller K.(编辑)中,《神经网络:交易技巧》,施普林格,1998年

尽管有偏见,但ReLU神经元似乎表现良好。您对此有什么想法吗?
方舟坤

@ Ark-kun,我对ReLU神经元了解不多,但是我可以向您介绍这篇论文,作者在其中解释这种激活功能的优势。X. Glorot,A。Bordes和Y. Bengio,“深度稀疏整流器神经网络AISTATS2011。jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf– tiagotvv
16:37

1

这两个激活功能非常相似,但相互抵消。我原来的网络没有偏见条款。由于增加了偏差,所以一切都变得更加稳定。根据我的经验,我会说其中的一种或另一种可能由于复杂的,可能是不可知的原因而对于特定的应用程序可能会更好,但是正确的方法是包含偏差项,以便可以减少或消除对激活偏移量的依赖。


0

tanh

L=1ni(yilog(pi)+(1yi)log(1pi))

yiipii

pitanh


您可以缩放它们。tanh(X)-1共享导数,并且没有负对数的问题
Pablo ArnauGonzález17年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.