神经网络(例如卷积神经网络)可以具有负权重吗?


13

当我们对所有激活层使用ReLU时,深度卷积神经网络是否有可能具有负权重(在足够的历时之后)?


我看不出他们不能否定任何理由。您是否有特定的原因/意见?
索比2015年

我只是在想象SGD的过程,并思考负重是否常见且可能。
RockTheStar

他认为这是因为“权重”类似于突触,即神经元之间的联系,那么我们如何对神经元具有-2突触呢?我在Google上搜索了完全相同的东西后偶然发现了这里...我想无论如何还是有可能的,这可能意味着最终会丢失一个突触或链接,并且“跳数”会从另一侧到达b,并从微积分中减去b,但是我不确定,只是想想
一下

Answers:


10

整流线性单位(ReLUs)仅使神经元的输出为非负值。然而,取决于训练数据,网络的参数可以并且将变为正或负。

我现在可以想到以下两个原因,这些原因(直观地)证明了为什么某些参数会变为负数:

  1. 参数的正则化(又称权重衰减);参数值的变化使预测成为可能,并且如果参数以零为中心(即,其均值接近零),则其范数(这是标准正则化函数)较低。2

  2. 尽管某层输出相对于各层参数的梯度取决于该层的输入(假设前一层将其输出通过ReLU始终为正),但是误差的梯度(即距离最终输出层较近的层)可能为正或为负,这使得SGD在采取下一个梯度步骤后可以使某些参数值变为负。更具体地说,让,和表示神经网络中一层的输入,输出和参数。同样,令为由一些训练样本引起的网络的最终误差。相对于的误差梯度计算如下IOwEwEw=(k=1KEOk)Okw ; 请注意,(请参见下图):Ok=O,k

在此处输入图片说明


1

想象一下,您拥有的权重都是非负的。

现在反转一些输入变量。此设置的最佳网络是颠倒边的权重,因此新的权重是非正的。xi=xi{xi,y}


-3

除非您使用其他激活功能,例如Leaky ReLU。第一个层之后的校正层权重是非负的,无论训练中有多少个历元。


1
十分感谢!您能解释一下有关泄漏的ReLU如何导致负体重的更多细节吗?
RockTheStar

似乎该说法不正确。我已经在ReLU激活网络上进行了训练,仿射变换中的矩阵(“ Ws”)和偏移量(“ b's”)(我在这个问题中将其称为权重)确实得到负值。
他们
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.