什么是人工神经网络?


15

深入研究神经网络文献时,我们发现了具有神经形态拓扑结构的其他方法(“神经网络”架构)。而且我并不是在说通用逼近定理。示例如下。

然后,让我感到奇怪的是:人工神经网络的定义是什么?它的拓扑似乎涵盖了所有内容。


例子:

我们做出的第一个标识是在PCA和线性自动编码器之间,编码器和解码器具有约束权重,而瓶颈层则具有阈值激活。

此外,在线性模型(特殊情况下为逻辑回归)和没有隐藏层且只有一个输出层的神经网络之间进行了通用标识。此标识打开了几扇门。

傅里叶和泰勒级数?人工神经网络SVM?人工神经网络。高斯过程?ANN(具有无限隐藏单元的单个隐藏层)。

因此,同样容易地,我们可以将具有这些算法的专门损失函数的任意正则化版本合并到神经网络框架中。

但是,我们挖掘的越多,相似之处就越多。我只是偶然发现了深度神经决策树,该通过决策树来识别特定的ANN架构,并允许通过ANN方法(例如Gradient Descent反向传播)来学习这些决策树。由此,我们可以仅从神经网络拓扑结构构建随机森林和梯度增强决策树。

如果一切都可以表示为人工神经网络,那么什么定义了人工神经网络呢?


关于深度神经决策树的那篇论文还很遥远。通常,激活函数是实值函数,而不是外部乘积。因此,他们并不是像我们通常认为的那样真正地讨论ANN,而是一种未被广泛使用或接受的数学概括。为了显示ANN与决策树不同,我只想指出所有ANN都是参数化的(具有有限的参数空间),而树型则是非参数化的(具有潜在的无限参数空间。)
olooney

@olooney Kronecker产品不是激活函数,它只是对上一层输出的一个操作(如卷积,或我们在激活过程中定义的任何其他操作)。DNDT可以表示任何决策树,并且每个DNDT都可以由决策树表示。
Firebug

1
@olooney根据您对激活函数的定义,Softmax不是激活函数。
Firebug

2
我不完全确定我了解这个问题的动机。ANN的一个可能的宽松定义是它是一个有向图模型,它使用神经元(即激活函数)来处理输入/输出,并且在大多数情况下,您是使用梯度下降来对其进行训练的。当您说“一切都可以表示为ANN”时,您是否特别在问上述其他模型与ANN之间是否存在精确的映射?问题是您必须提出高度修改的训练例程以匹配优化。
亚历克斯R.18年

1
@Sycorax我也这样做,他和欣顿都暗示了这一点。我想给其他阵营的答卷人一个机会,提供可靠的消息来源:)
Firebug

Answers:


6

JürgenSchmidhuber,“ 神经网络中的深度学习:概述 ”追溯了神经网络和深度学习中关键概念的历史。在他看来,神经网络似乎基本上涵盖了可以被描述为有向图的任何模型,其中每个节点代表某个计算单位。Schmidhuber是一位杰出的神经网络研究人员,他与Sepp Hochreiter撰写了有关LSTM网络的原始论文。

学习系统的哪些可修改组件负责其成功或失败?对它们进行哪些更改可以提高性能?这被称为基本信用分配问题(Minsky,1963)。对于通用的问题解决者,有一些通用的学分分配方法,它们在各种理论意义上都是时间最优的(第6.8节)。但是,本次调查将重点关注人工神经网络(NN)中深度学习(DL)的狭窄领域,但现在具有商业意义。

标准神经网络(NN)由许多称为神经元的简单连接处理器组成,每个处理器都会产生一系列实值激活。输入神经元通过感知环境的传感器激活,其他神经元通过先前活动的神经元的加权连接激活(第2节中的详细信息)。一些神经元可能会通过触发动作来影响环境。学习或学分分配是关于找到使NN表现出所需行为(例如驾驶汽车)的权重。根据问题和神经元的连接方式,这种行为可能需要较长的因果链计算阶段(第3节),其中每个阶段都会转换(通常以非线性方式)网络的总体激活。深度学习涉及在许多此类阶段中准确分配学分。

很少有这样的阶段的浅层类似于NN的模型已经存在了数十年(即使不是几个世纪)(5.1节)。具有数个连续的非线性神经元层的模型至少可以追溯到1960年代(第5.3节)和1970年代(第5.5节)。在1960年代和1970年代开发了一种有效的梯度下降方法,用于离散的,可任意深度的离散网络中基于教师的监督学习(SL),即反向传播(BP),并于1981年应用于NN(第5.5节)。然而,到1980年代后期(第5.6节),在实践中发现很难对基于BP的多层神经网络进行训练(第5.6节),并在1990年代初成为明确的研究课题(第5.9节)。在无监督学习(UL)的帮助下,例如Sec,DL在某种程度上变得切实可行。5.10(1991),第二节 5.15(2006)。在1990年代和2000年代,纯监督的DL也有了很多改进(第5节)。在新的千年中,深层神经网络终于引起了广泛的关注,主要是通过在许多重要应用中胜过诸如内核机之类的替代机器学习方法(Vapnik,1995; Scholkopf等,1998)。实际上,自2009年以来,受监督的深度神经网络赢得了许多官方的国际模式识别竞赛(例如,第5.17、5.19、5.21、5.22节),实现了有限域内的首个超人视觉模式识别结果(第5.19节,2011年)。在没有监督老师的情况下,深度神经网络也已经与更广泛的强化学习(RL)领域相关(第6节)。主要是通过在许多重要应用中胜过诸如内核机之类的替代机器学习方法(Vapnik,1995; Scholkopf等,1998)。实际上,自2009年以来,受监督的深度神经网络赢得了许多官方的国际模式识别竞赛(例如,第5.17、5.19、5.21、5.22节),实现了有限域内的首个超人视觉模式识别结果(第5.19节,2011年)。在没有监督老师的情况下,深度神经网络也已经与更广泛的强化学习(RL)领域相关(第6节)。主要是通过在众多重要应用中胜过诸如内核机之类的替代机器学习方法(Vapnik,1995; Scholkopf等,1998)。实际上,自2009年以来,受监督的深度神经网络赢得了许多官方的国际模式识别竞赛(例如,第5.17、5.19、5.21、5.22节),实现了有限域内的首个超人视觉模式识别结果(第5.19节,2011年)。在没有监督老师的情况下,深度神经网络也已经与更广泛的强化学习(RL)领域相关(第6节)。在有限的领域内实现了第一个超人视觉模式识别结果(2011年,第5.19节)。在没有监督老师的情况下,深度神经网络也已经与更广泛的强化学习(RL)领域相关(第6节)。在有限的领域内实现了第一个超人视觉模式识别结果(2011年,第5.19节)。在没有监督老师的情况下,深度神经网络也已经与更广泛的强化学习(RL)领域相关(第6节)。

另一方面,我不确定尝试为机器学习策略构建互斥存储桶的分类标准是否一定会有利可图。我认为我们可以说有一些观点可以将模型视为神经网络。我认为,在所有情况下,观点不一定都是最好的或有用的。例如,我仍计划将随机森林和梯度增强树称为“树状集成体”,而不是抽象化它们的区别并称其为“神经网络树”。此外,施密德(Schmidhuber)将NN与内核机器区分开来-尽管内核机器与NN有某些联系-当他写道:“在新的千年中,深层的NN终于引起了广泛的关注,主要是通过在众多重要应用中胜过诸如内核机之类的替代机器学习方法。”


因此,基本上,当今机器学习和统计学中已知的每个模型和启发式算法都将被Schmidhuber视为ANN,其独特的命名法仅是通过优化策略给出的(包括此处未进行优化的模型)?
Firebug

1
从实际的角度来看,我明白了这一点,但这并没有改变以下事实:严格地说,几乎每个模型都是ANN(我不能认为不是这样的单个模型)。
Firebug

2
@Firebug您如何重新格式化在“学习环境”中经过训练或放置的回归或(简单的k均值及其他)聚类问题,使其等于ANN的定义?
Sextus Empiricus

1
@Firebug我不知道PCA可以证明等同于特定的自动编码器这一事实如何使PCA成为“神经网络”。在标准PCA中,我们甚至没有使用梯度下降。
变形虫说恢复莫妮卡

1
@Firebug如果将“ NN”定义为“连接的计算节点”,那么我猜任何计算都是NN。不知道有什么用,但是还可以。
变形虫说恢复莫妮卡

7

如果需要ANN的基本定义,则可以说它是有向图形模型,其中通过激活函数在每个节点上处理输入和输出,并且大部分时间梯度下降用于训练它。因此问题就变成了:哪些模型可以表示为图形模型?

我不是专家,但我认为从理论上讲可以证明某些ANN是Turing完整的,这意味着它们应该能够进行任何可能的计算(请注意,可能有无限数量的资源)。

我还将以以下方式解释您的问题:

对于任何给定的模型,我都可以在合理的时间内将ANN模型拍打起来,以尽可能接近地模拟该模型吗?

香草神经网络可以通过使用重组分逐步激活来模拟决策树。问题在于这种单元激活的梯度为零,因此正常的梯度下降将不起作用。您可能会说:“没问题,只需使用改进的梯度下降形式。” 但是,这还不够。举一个更好的例子,例如XGBOOST,它不只是渐变增强的森林。在选择分割点,修剪,优化速度等方面,还有很多额外的工作。也许经过足够的修改,您可以制作出外观相似的ANN,但尚不清楚这样的ANN至少会像好吧,也没有针对这项工作进行优化。

我认为这很重要,因为得出结论,人工神经网络可以做任何事情在理论上可能令人满意,但实际上这可能完全没有用。例如,您可以尝试使用ReLu激活来进行ANN估算FX=ËX,但这只是愚蠢的做法,因为您可以使用更高效,更准确的方法。


2
感谢您的回答!关于这个问题- "For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"恐怕不是重点。关键是,ANN拓扑是如此笼统,似乎涵盖了所有内容,而优化策略似乎无法确定什么是ANN和什么不是ANN。因此,问题是什么定义了人工神经网络?因为否则,从某种意义上讲,一切都是用其他术语表示的ANN。
Firebug

1
"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"-正如我们可以断言的那样,优化不是决定什么构成ANN的决定因素。如果您可以将每个决策树都写成神经网络(并且我们可以做到),那么我们可以肯定地说DT是NN(的一种),而事实并非如此。
Firebug

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"-我同意这一点。然后,“神经网络”可以解释为最通用的模型类别,可能不如“图形模型”通用,“图形模型”是无向图模型和有向图模型的超集。也许您可以对此进行详细说明;)
Firebug

2

也许,人工神经网络的一个更准确的名称是“可区分网络”,即可以使用梯度下降或其变体进行优化的复杂参数化函数。这是一个非常笼统的定义,它强调可微性,但不涉及任何主要思想,它适合的任务,基础数学框架等。

请注意,差异性是一个特征,而不是主要特征。例如,可以使用梯度下降训练SVM,从而显示出神经/可微网络的属性,但是主要思想是使用超平面进行数据分离。可变自动编码器将MLP用于编码器和解码器,但是您优化的功能来自贝叶斯统计信息,依此类推。

还有一些模型通常称为神经网络,但不使用GD进行学习。一个很好的例子是RBM。我的猜测是,标签“神经网络”的粘贴主要是出于历史原因-最终,RBM的创建者是Geoffrey Hinton,Hinton是神经网络专家,对吗?但是,如果分析模型,您会发现RBM的结构是一个马尔可夫网,基于能量的成本函数来自20世纪初的统计物理学,并且MCMC / Gibbs采样正在并行开发,并且完全独立于神经网络。


2
基于梯度的学习无疑在人工神经网络的成功中发挥了作用。但是我不认为可区分性对于定义至关重要,因为某些ANN不可区分。例如,第一个ANN(McCulloch-Pitts模型)使用二进制阈值单位。当前的研究主题是如何在诸如尖刺网之类的不可微ANN中进行学习。或者,假设我们从典型的可微ANN开始,然后声明我们要最小化不可微损失函数。不再是人工神经网络吗?
user20160

这就是为什么我提出了一个替代定义的原因,该定义涵盖前馈,递归,递归,卷积网络,自动编码器,VAE,GAN,注意力和我们通常称为“神经网络”的许多其他模型,但不包括例如基于模拟人脑的方法或对PGM进行大量采样。截至2018年,这些方法确实有所不同,它们使用不同的优化方法,不同的库等。(尽管我想不出比“神经网络”更好的名称作为尖刺网,因为与CNN或RNN不同,实际上是模拟人类脑)。
ffriend

1

我可能会尝试推测一些有助于定义神经网络的东西。

  • 具有可调参数的计算图。
  • 可以调整所述参数以符合数据(真实或模拟)。
  • 隐式或显式地涉及要优化的目标函数。它可以是全局或局部参数。

我敢肯定,这涵盖了当今所有常用的神经网络以及一些深奥的神经网络。

它与优化无关(如果我们实施基于梯度的优化,则演化的网络将不是神经网络)。

它没有提到神经元/节点或层(这些术语几乎不能描述当今的一些神经网络),但是我想我们可以将其合并,并且限制更多。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.