21 人们经常提到,整流线性单位(ReLU)已取代了softplus单位,因为它们是线性的并且计算速度更快。 softplus仍然具有引起稀疏性的优势吗?还是仅限于ReLU? 我问的原因是我对ReLU零斜率的负面影响感到疑惑。此属性是否不是将单元“捕获”为零,使它们具有重新激活的可能性可能是有益的? machine-learning neural-networks — 布罗克33 source 您找到答案了吗? — 查理·帕克
4 我在深度学习书的6.3.3节中找到了您问题的答案。(Goodfellow et al。,2016): 通常不建议使用softplus。...人们可能会希望它比整流器具有优势,这是因为它在各处均可微分或饱和程度不完全,但从经验上讲并没有。 作为支持该主张的参考,他们引用了论文《深度稀疏整流器神经网络》(Glorot等,2011)。 — 亚历山大·舒克(Alexander Shchur) source 1 我认为我们需要对“但从经验上讲不需要”进行更多的说明。 — nbro
2 确实可以永久关闭ReLU,尤其是在高学习率的情况下。这是泄漏的ReLU和ELU激活背后的动机,两者几乎在所有地方都具有非零梯度。 与ReLU一样,泄漏的ReLU是一个分段线性函数,因此计算速度很快。与softmax和ReLU相比,ELU的优势在于它的平均输出接近于零,从而改善了学习效果。 — 休·珀金斯 source “几乎无处不在”是什么意思? — nbro 1 “几乎无处不在”是一个技术术语,其含义类似于“除了少数无限小点”。例如,泄漏的ReLU没有在x = 0处定义梯度。 — 休·珀金斯