是什么使神经网络成为非线性分类模型?


18

我正在尝试了解非线性分类模型的数学含义:

我刚刚读了一篇文章,谈论神经网络是一种非线性分类模型。

但是我才意识到:

在此处输入图片说明

第一层:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

后续层

y=bwby+h1wh1y+h2wh2y

可以简化为

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

两层神经网络只是简单的线性回归

=b+x1W1+x2W2

这可以显示在任意数量的层上,因为任意数量的权重的线性组合还是线性的。

是什么使神经网络真正成为非线性分类模型?
激活函数将如何影响模型的非线性?
你能解释一下吗?

Answers:


18

我想您会忘记神经网络中节点中的激活函数,该函数是非线性的,会使整个模型变为非线性。

您的公式并不完全正确,在哪里,

h1w1x1+w2x2

h1=sigmoid(w1x1+w2x2)

像这样的Sigmoid函数,sigmoid(x)=11+ex

在此处输入图片说明

让我们使用一个数字示例来解释Sigmoid函数的影响,假设您有然后。另一方面,假设您有,,它几乎与非线性的相同。w1x1+w2x2=4sigmoid(4)=0.99w1x1+w2x2=4000sigmoid(4000)=1sigmoid(4)


另外,我认为本教程中的幻灯片14 可以准确显示出您在哪里做错了。对于不是otuput不是-7.65,而是H1sigmoid(7.65)

在此处输入图片说明


1
激活函数将如何影响模型的非线性?你能解释一下吗?
Alvaro Joao

3

您是正确的,多个线性层可以等效于单个线性层。正如其他答案所说,非线性激活函数允许非线性分类。说分类器是非线性的意味着它具有非线性决策边界。决策边界是分隔类别的表面。分类器将在决策边界的一侧为所有点预测一个类别,在另一侧为所有点预测另一个类别。

让我们考虑一个常见的情况:使用包含多层非线性隐藏单元和具有S形激活函数的输出单元的网络执行二进制分类。给出输出,是最后一个隐藏层的激活向量,是输出单元上权重的向量,是输出单元的偏差。输出为:ÿHwb

y=σ(hw+b)

其中是逻辑S形函数。输出被解释为该类为的概率。预测的类为:σ1c

c={0y0.51y>0.5

让我们考虑有关隐藏单元激活的分类规则。我们可以看到隐藏的单元激活被投影到线上。分配类别的规则是的函数,它与沿线的投影单调相关。因此,分类规则等效于确定沿线的投影是小于还是大于某个阈值(在这种情况下,阈值由偏差的负数给出)。这意味着决策边界是与该线正交的超平面,并且在与该阈值相对应的点处与该线相交。hW+by

我之前说过决策边界是非线性的,但是超平面是线性边界的定义。但是,我们一直在将边界视为输出之前隐藏单元的函数。由于先前的隐藏层及其非线性激活函数,隐藏单元激活是原始输入的非线性函数。考虑网络的一种方法是将数据非线性地映射到某个特征空间。该空间中的坐标由最后一个隐藏单元的激活给出。然后,网络在该空间中执行线性分类(在这种情况下为逻辑回归)。我们还可以考虑将决策边界作为原始输入的函数。此功能将是非线性的,这是从输入到隐藏的单元激活的非线性映射的结果。

这篇博客文章显示了此过程的一些不错的图形和动画。


1

非线性来自S型激活函数1 /(1 + e ^ x),其中x是您在问题中引用的预测变量和权重的线性组合。

顺便说一下,此激活的边界为零和一,因为分母变得太大以至于分数接近零,或者e ^ x变得如此之小以至分数接近1/1。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.