混合激活功能会怎样？

有几种激活功能，例如ReLU，Sigmoid或 $\tanh$ 。混合激活功能会怎样？

我最近发现Google开发了Swish激活功能，即（x * sigmoid）。通过更改激活函数，可以提高诸如XOR问题之类的小型神经网络问题的准确性吗？

— 昌
source

对组合常见激活函数的行为的普遍回答是必须应用微积分定律，特别是微分定律，结果必须通过实验获得，以确保组合函数的质量，并且额外的复杂性很可能会增加计算时间。与组合所提供的收敛优势相比，组合的计算负担较小时，这种增加将是一个例外。

Swish似乎是这样，激活函数的名称定义为

F （ X ） = X 小号 （ β X ） ，

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

$f()$ $\mathbb{S}$ $\beta$

它似乎不是由Google开发的。最初匿名提交的论文（作为ICLR 2018论文进行双盲审查），搜索激活函数，由Prajit Ramachandran，Barret Zoph和Quoc V. Le于2017年左右撰写。这是他们的主张。

我们的实验表明，在许多具有挑战性的数据集的更深层模型中，发现得最好的激活函数Swish往往比ReLU更好地工作。

激活功能对任何一层的任何更改都将发生，除非在天文学上很少见，否则影响准确性，可靠性和计算效率。改变是否重大不能一概而论。这就是为什么要针对传统上用来评估实用性的数据集测试新想法的原因¹。

合并激活功能以形成新的激活功能并不常见。例如，AlexNet不会将它们合并。²。但是，在单个有效的网络设计的不同层中使用不同的激活功能是非常普遍的。

脚注

[1]这些传统是否造成偏见是另一个问题。那些遵循瑞典计算机科学家Ivar Hjalmar Jacobson或6 Sigma想法提出的用例分析理论的人会说，这些测试是单元测试，而不是针对现实世界用例的功能测试，它们很有道理。

[2]为纠正可能因另一个答案而引起的任何误解，AlexNet 是Alex Krizhevsky，Ilya Sutskever和Geoffrey E. Hinton（来自University of University）在“ 深度卷积神经网络的ImageNet分类”（2012）中概述的方法的名称。多伦多不涉及组合激活功能以形成新功能。他们写这个。

最后一个完全连接层的输出被馈送到1000路softmax，后者在1000类标签上产生分布。

...

ReLU非线性应用于每个卷积和全连接层的输出。内部层是纯ReLU，输出层是Softmax。

他们使用的AlexNet方法系列的层中还包含卷积内核和池化层，自2012年赢得ImageNet竞赛以来，该设计已进入普遍使用。其他方法也赢得了后来的竞赛。

— 道格拉斯·达西斯科（Douglas Daseeco）
source