对于我仍在加快步伐这一事实,我预先表示歉意。我试图了解使用tanh(映射-1到1)与sigmoid(映射0到1)进行神经元激活功能的优缺点。从我的阅读来看,这听起来像是一件微不足道的事情。在实践中,针对我的问题,我发现S型曲线更容易训练,而且奇怪的是,S型曲线似乎可以更好地找到一般的解决方案。我的意思是,当完成了S型曲线的训练后,它在参考(未经训练)的数据集上表现良好,而tanh版本似乎能够在训练数据上获得正确的答案,而对参考的表现却很差。这是针对相同的网络体系结构。
我的直觉是,使用乙状结肠,神经元几乎完全关闭更容易,因此不为后续层提供任何输入。tanh在这里比较困难,因为它需要完全取消其输入,否则它总是为下一层提供一个值。也许这种直觉是错误的。
长帖子。底线是什么,这应该有很大的不同吗?