神经网络（例如卷积神经网络）可以具有负权重吗？

13

当我们对所有激活层使用ReLU时，深度卷积神经网络是否有可能具有负权重（在足够的历时之后）？

machine-learning neural-networks deep-learning conv-neural-network

— 摇滚之星
source

我看不出他们不能否定任何理由。您是否有特定的原因/意见？

— 索比2015年

我只是在想象SGD的过程，并思考负重是否常见且可能。

— RockTheStar

他认为这是因为“权重”类似于突触，即神经元之间的联系，那么我们如何对神经元具有-2突触呢？我在Google上搜索了完全相同的东西后偶然发现了这里...我想无论如何还是有可能的，这可能意味着最终会丢失一个突触或链接，并且“跳数”会从另一侧到达b，并从微积分中减去b，但是我不确定，只是想想

— 一下

10

整流线性单位（ReLUs）仅使神经元的输出为非负值。然而，取决于训练数据，网络的参数可以并且将变为正或负。

我现在可以想到以下两个原因，这些原因（直观地）证明了为什么某些参数会变为负数：

参数的正则化（又称权重衰减）；参数值的变化使预测成为可能，并且如果参数以零为中心（即，其均值接近零），则其范数（这是标准正则化函数）较低。 $\ell 2$
尽管某层输出相对于各层参数的梯度取决于该层的输入（假设前一层将其输出通过ReLU始终为正），但是误差的梯度（即距离最终输出层较近的层）可能为正或为负，这使得SGD在采取下一个梯度步骤后可以使某些参数值变为负。更具体地说，让，和表示神经网络中一层的输入，输出和参数。同样，令为由一些训练样本引起的网络的最终误差。相对于的误差梯度计算如下 $I$ $O$ $w$ $E$ $w$ $\frac{\partial E}{\partial w} = \left( \sum_{k=1}^K\frac{\partial E}{\partial O_k} \right) \cdot \frac{\partial O_k}{\partial w}$ ; 请注意，（请参见下图）： $O_k = O, \forall k$

— 索比
source

1

想象一下，您拥有的权重都是非负的。

现在反转一些输入变量。此设置的最佳网络是颠倒边的权重，因此新的权重是非正的。 $x'_i = -x_i$ $\{x'_i,y\}$

— nakajuice
source

-3

除非您使用其他激活功能，例如Leaky ReLU。第一个层之后的校正层权重是非负的，无论训练中有多少个历元。

— ate
source

1

十分感谢！您能解释一下有关泄漏的ReLU如何导致负体重的更多细节吗？

— RockTheStar

似乎该说法不正确。我已经在ReLU激活网络上进行了训练，仿射变换中的矩阵（“ Ws”）和偏移量（“ b's”）（我在这个问题中将其称为权重）确实得到负值。

— 他们