偏置节点在神经网络中的重要性


19

我很好奇知道偏置节点对于现代神经网络的有效性有多重要。我很容易理解,在只有几个输入变量的浅层网络中,它很重要。但是,诸如深度学习之类的现代神经网络通常具有大量的输入变量来决定是否触发某个神经元。仅仅从LeNet5或ImageNet中删除它们是否会产生真正的影响?


@gung-我已经看到您已经编辑标题以使用短语“ bias node”。我很好奇你为什么喜欢那个头衔?我以前从未听说过这种用法。而且,当偏差不是网络中的单独节点时,使用“节点”一词似乎会造成混淆。
pir

2
如果您不喜欢它,可以通过我的歉意来回滚编辑。我一直认为这个名字很标准,尽管多年来我都没有玩过ANN,有些人则称其为“偏向神经元”。FWIW,“偏见”在统计/ ML中有点含糊;它最常指的是一个估计器,其采样分布不以参数的真实值或与真实函数/平均值不同的预测函数/预测值为中心,等等,而偏差节点是变量的特定部分神经网络
gung-恢复莫妮卡

2
它是网络中的实际节点(至少在某种意义上来说是这样)。例如,请参阅此图像中的黑色节点。
gung-恢复莫妮卡

好的,这很有道理-“偏见”确实很含糊。感谢您的解释。
pir

1
对于神经元而言,偏置单元似乎是自发放电,这是自然发生的。
user3927612 '01

Answers:


15

消除偏差肯定会影响性能,这就是为什么...

每个神经元就像一个简单的逻辑回归,您有。输入值与权重相乘,偏差会影响S型函数(tanh等)中的初始压缩水平,从而产生所需的非线性。y=σ(Wx+b)

例如,假设你想要一个神经元激发时,所有的输入像素都是黑色X 0。如果没有偏见无论什么权重w ^你,给出的公式Ÿ = σ w ^ X 的神经元会一直火Ÿ 0.5y1x0Wy=σ(Wx)y0.5

因此,通过消除偏差项,您将大大降低神经网络的性能。


2
谢谢,这很有道理。我猜想,即使大多数现代网络都使用ReLU作为激活功能(请参见例如papers.nips.cc/paper/4824-imagenet),但是如果在所有输入像素均为黑色时需要触发网络,则这仍然可能是相关的。ReLU被定义为f(x)= max(0,x)。
pir 2015年

究竟!是一样的情况...
Yannis Assael 2015年

4
y1x0x0y0.5

2
尽管我同意该理论,但值得指出的是,对于现代大型网络,获得全零输入的机会微不足道。这也基于这样的假设:网将要发射1-深网很可能不在乎单个神经元的输出-这部分是为什么辍学对于规范化网如此流行的原因。
Max Gordon

2
@MaxGordon是正确的。此答案不适用于此问题。尝试消除大型网络中的偏见,您会发现它的影响很小。
Neil G

10

我不同意您问题中的其他答案。是的,偏置节点在小型网络中很重要。但是,在大型模型中,删除偏置输入几乎没有什么区别,因为每个节点都可以使偏置节点脱离其所有输入的平均激活,这根据大数定律是大致正常的。在第一层,发生这种情况的能力取决于您的输入分布。例如,对于MNIST,输入的平均激活大致恒定。

在小型网络上,您当然需要一个偏置输入,但是在大型网络上,删除它几乎没有区别。(但是,为什么要删除它?)


3

如果我有足够的声誉,我会评论@NeilG的答案,但是a ...

尼尔,我不同意你的看法。你说:

...其所有输入的平均激活,按照大数定律,这通常是正常的。

我对此表示反对,并说,大量定律要求所有观测值彼此独立。在神经网络之类的情况下,情况并非如此。即使每个激活都是正态分布的,如果您观察到一个输入值异常高,也会改变所有其他输入的概率。因此,在这种情况下,“观察”不是独立的输入,也不适用大数定律。

除非我不明白您的回答。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.