Answers:
您是正确的,多个线性层可以等效于单个线性层。正如其他答案所说,非线性激活函数允许非线性分类。说分类器是非线性的意味着它具有非线性决策边界。决策边界是分隔类别的表面。分类器将在决策边界的一侧为所有点预测一个类别,在另一侧为所有点预测另一个类别。
让我们考虑一个常见的情况:使用包含多层非线性隐藏单元和具有S形激活函数的输出单元的网络执行二进制分类。给出输出,是最后一个隐藏层的激活向量,是输出单元上权重的向量,是输出单元的偏差。输出为:
其中是逻辑S形函数。输出被解释为该类为的概率。预测的类为:
让我们考虑有关隐藏单元激活的分类规则。我们可以看到隐藏的单元激活被投影到线上。分配类别的规则是的函数,它与沿线的投影单调相关。因此,分类规则等效于确定沿线的投影是小于还是大于某个阈值(在这种情况下,阈值由偏差的负数给出)。这意味着决策边界是与该线正交的超平面,并且在与该阈值相对应的点处与该线相交。
我之前说过决策边界是非线性的,但是超平面是线性边界的定义。但是,我们一直在将边界视为输出之前隐藏单元的函数。由于先前的隐藏层及其非线性激活函数,隐藏单元激活是原始输入的非线性函数。考虑网络的一种方法是将数据非线性地映射到某个特征空间。该空间中的坐标由最后一个隐藏单元的激活给出。然后,网络在该空间中执行线性分类(在这种情况下为逻辑回归)。我们还可以考虑将决策边界作为原始输入的函数。此功能将是非线性的,这是从输入到隐藏的单元激活的非线性映射的结果。
这篇博客文章显示了此过程的一些不错的图形和动画。
非线性来自S型激活函数1 /(1 + e ^ x),其中x是您在问题中引用的预测变量和权重的线性组合。
顺便说一下,此激活的边界为零和一,因为分母变得太大以至于分数接近零,或者e ^ x变得如此之小以至分数接近1/1。