25 为什么将整流线性单位(ReLU)的激活函数视为非线性? F(x )= 最大(0 ,x )f(x)=max(0,x) 当输入为正时,它们是线性的,并且据我了解,要释放深层网络的代表性力量,必须进行非线性激活,否则整个网络可以用一个层表示。 neural-networks deep-learning — 艾莉 source 之前也有类似的问题问:stats.stackexchange.com/questions/275358/…尽管可能不是重复的 — Aksakal,
33 RELU是非线性的。为了帮助您理解,请考虑一个非常简单的网络,其中包含1个输入单元Xx,2个隐藏单元ÿ一世yi和1个输出单元žz。通过这个简单的网络,我们可以实现绝对值函数, ž= max (0 ,x )+ max (0 ,− x ),z=max(0,x)+max(0,−x), 或看起来类似于常用的S型函数 ž= 最大值(0 ,X + 1 )- 最大值(0 ,X - 1 )。z=max(0,x+1)−max(0,x−1). 通过将它们组合成更大的网络/使用更多的隐藏单元,我们可以近似任意函数。 — 卢卡斯 source 这些类型的手动构建的ReLus是否会先验构建并作为层进行硬编码?如果是这样,您怎么知道您的网络特别需要这些特制的ReLus之一? — 莫妮卡·赫德内克 4 @MonicaHeddneck您可以指定自己的非线性,是的。使一种激活功能优于另一种激活功能的问题是一个持续不断的研究主题。例如,我们曾经使用过,但是由于梯度问题的消失,ReLU变得更加流行。因此,取决于您使用不同的非线性激活函数。σ(x)=11+e−xσ(x)=11+e−x — Tarin Ziyaee 2016年 您如何在样品外使用ReLU估算?exex — Aksakal 1 @Lucas,所以基本上,如果Combine(+)> 1 ReLU,我们可以近似任何函数,但是如果我们简单地reLu(reLu(....))将它总是线性的呢?另外,在这里您将更x改为x+1,这可以认为是Z=Wx+bW&b发生了变化,从而给出了此类x&x+1?的不同变体。 — 阿努