多层感知器与深度神经网络


16

这是一个术语问题。有时我看到人们将深度神经网络称为“多层感知器”,这是为什么呢?我教过的感知器是一种单层分类器(或回归器),它使用特定的权重训练方法(不是反向传播)具有二进制阈值输出。如果感知器的输出与目标输出不匹配,则将输入矢量添加或减去权重(取决于感知器给出的是假阳性还是假阴性)。这是一种非常原始的机器学习算法。训练过程似乎无法推广到多层案例(至少并非没有修改)。深度神经网络是通过反向传播训练的,它使用链规则通过网络的所有权重传播成本函数的梯度。

所以,问题是。“多层感知器”与“深度神经网络”是否一样?如果是这样,为什么要使用该术语?似乎不必要地造成混淆。另外,假设术语在某种程度上是可互换的,那么当我指的是由完全连接的层(无卷积层或递归连接)组成的前馈网络时,我仅看到术语“多层感知器”。这个术语有多广泛?例如,当提到Inception网络时,会使用术语“多层感知器”吗?使用NLP中使用的LSTM模块的循环网络怎么样?


1
深度神经网络=具有> 1个隐藏层的神经网络,MLP属于此类。
蒂姆

它只是重塑品牌。MLP在90年代大肆宣传,并被SVM取代,因此需要在2000年代称之为不同。建议是dnn具有更多的层,但相差不大,例如Le Net [MLP / CNN](1998)2卷积2完全连接。alexnet = DNN(2012)5个卷积和3个完全连接。
seanv507

支持向量机基于梯度上升,人工神经网络基于梯度下降,因此它们实际上并没有取代人工神经网络。SVM被超卖并且被过度使用,因为研究生对ANN一无所知。要运行SVM,学生只需抓住R包就可以了。但是对于ANN,您需要整个学期才能从数值方法的角度理解它们,而不是从解释性语言的角度(即将代码拍打在一起)理解。
JoleT

Answers:


21

可以将多层感知器(MLP)视为深度神经网络(DNN)的子集,但在文献中经常互换使用。

基于感知器的学习规则命名感知器的假设是错误的。经典的“感知器更新规则”是可用于训练它的方法之一。正是由于这个原因,神经网络才被早期拒绝,因为感知器更新规则易于消失和爆炸梯度,从而无法训练超过一层的网络。

训练网络中反向传播的使用导致使用替代的挤压激活功能,例如tanhSigmoid

所以,要回答问题,

问题是。“多层感知器”与“深度神经网络”是否一样?

MLP是DNN的子集。虽然DNN可能有循环,而MLP总是前馈,即

多层感知器(MLP)是有限的无环图

为什么使用此术语?

科学文献中使用的许多术语与时代趋势有关,并且已经流行。

这个术语有多广泛?例如,当提到Inception网络时,会使用术语“多层感知器”吗?使用NLP中使用的LSTM模块的循环网络怎么样?

所以,是的,因为连接之间没有周期,所以卷积网络,resnet等都是MLP。即使存在跳过层的快捷连接,只要它是向前的,也可以称为多层感知器。但是,LSTM或Vanilla RNN等具有循环连接,因此不能称为MLP,而是DNN的子集。

这是我对事物的理解。如果我错了,请纠正我。

参考链接:

/cs/53521/what-is-difference-between-multilayer-perceptron-and-multilayer-neural-network

https://zh.wikipedia.org/wiki/Multilayer_perceptron

https://zh.wikipedia.org/wiki/Perceptron

http://ml.informatik.uni-freiburg.de/former/_media/teaching/ss10/05_mlps.printer.pdf


1
只是出于好奇:我认为逻辑回归一种回归技术,因为您估计的是1类成员身份而不是类成员身份的概率。因此,在我看来,这似乎不是一种分类技术(研究人员/分析师必须确定概率临界值才能基于逻辑回归进行分类)。
IWS

@IWS,您是对的。该站点上的各种用户反复指出逻辑回归是(条件)概率估计的模型,而不是分类器。例如参见这里
DeltaIV

1
编辑了解决方法以修复问题例如,“逻辑回归”是一种分类技术,如果可以这么说,则不应将其称为“回归”。@DeltaIV共享的链接非常清楚地说明了为什么它是回归变量而不是分类器。
m1cro1ce

8

很好的问题:请注意,在深度学习领域,事物并非总是像统计学习中那么清晰明了(也因为有很多炒作),因此不要指望找到像数学中那样严格的定义。无论如何,多层感知器是一种特定的前馈神经网络体系结构,其中您堆叠了多个完全连接的层(因此,根本没有卷积层),其中隐藏单元的激活功能通常是S型或tanh。输出层的节点通常具有softmax激活函数(用于分类)或线性激活函数(用于回归)。典型的MLP架构不是“较深的”,即,我们没有很多隐藏层。通常,您有1到5个隐藏层。这些神经网络在80年代很普遍,

现在,对于深度神经网络,我们指的是一个具有许多层的网络(19、22、152,...甚至大于1200,尽管这是非常极端的)。注意

  • 我们尚未指定网络的架构,因此可能是前馈,循环等。
  • 我们尚未指定连接的性质,因此我们可以具有完全连接的层,卷积层,递归等。
  • 诚然,“许多”层不是严格的定义。

32×32+32×10=134411584重量。按照今天的标准,这是微不足道的NN。但是,当您继续在适当大的数据集上进行训练时,您会发现收敛速度大大降低了。这不仅是由于权重数量较大,还因为梯度消失了 -反向传播通过在每一层上乘以误差来计算损耗函数的梯度,并且随着添加的层数的增加,这些较小的数字呈指数减小。因此,错误不会在您的网络中传播(或传播得很慢),并且看起来训练集上的错误不再随着训练时期而减少。

这是一个小型网络-名为AlexNet的深层卷积神经网络有5层,但权重为6000万,按今天的标准,它被认为是很小的!当权重如此之大时,任何数据集都是“小”的-甚至ImageNet(用于分类的图像数据集)也只有“大约”一百万个图像,因此,过度拟合的风险比浅层网络要大得多。

因此,深度学习可以理解为在实践中用于训练具有大量层次和权重的神经网络的工具集,从而实现了低泛化误差。与较小的网络相比,此任务提出了更多的挑战。您绝对可以构建一个深度多层感知器并对其进行训练-但是(除了它并不是当今使用深度学习的许多任务的最佳架构之外),您可能会使用与过去使用网络时所使用的工具不同的工具。 “浅”。例如,您可能更喜欢ReLU激活单元而不是S型或tanh,因为它们可以缓解梯度消失的问题。


m1cro1ce先前的回答是说conv-net(例如inception)也可以归类为MLP,而您指定MLP不能具有卷积层(这似乎暗示着激活函数的选择也是否会影响MLP?)。文献(或ML社区内部)是否对MLP到底意味着什么和不意味着什么达成了一致?如果有人对我说“我希望您为任务X建立MLP”,我将只能做什么?
enumaris

@enumaris您不受任何法律限制。上次我检查时,构建CNN并将其称为MLP仍然合法。我当然会拒绝这样的论文/海报/任何东西,但是那是我,我不能代表整个DL社区发言,整个DL社区并不严格地使用术语而闻名。无论如何,我的定义是:前馈神经网络具有完全连接的层并且至少具有一些非线性激活函数(否则,无论有多少层,它始终等效于单层线性网络)与您所能找到的一样。 。
DeltaIV

... 维基百科。请注意“由于MLP已完全连接[..]”这一节中的行。这排除了CNN。您可以在本书中找到相同的定义(前馈,完全连接,至少隐藏层具有非线性激活函数)。关于激活功能,我似乎绝对没有暗示。我刚刚说过,MLP通常具有tanh或Sigmoid激活功能,但这不是强制性的。
DeltaIV '17

我想将这两个答案之一标记为已接受的答案,但是由于它们给出的答案相互矛盾,因此我想知道哪个答案是文献中或ML社区中最常见的一个。
enumaris

@enumaris,您的问题的标题是“多层感知器与深度神经网络”,您问是否a "multi-layer perceptron" the same thing as a "deep neural network":该问题已在我的答案和m1cro1ce的答案中得到了详细解答。现在您问的问题是:“ CNN是MLP的子集吗?” -Stack Exchange网站对发布问题的政策是一个问题
DeltaIV

0

我想根据我从许多帖子中读到的内容来补充:

DNN有许多不同的架构,例如MLP(多层感知器)和CNN(卷积神经网络),因此设计了不同类型的DNN以解决不同类型的问题。

MLP是NN的经典类型,用于:

  • 表格数据集(包含列格式的数据,如数据库表中的数据)。
  • 分类/回归,预测铅。

MLP非常好,通常可用于从输入到输出的精益映射。

但是您可以尝试使用其他格式(例如图像数据)作为比较的基准点,以确认其他模型更合适。

CNN用于将图像数据映射到输出变量。它用于:

  • 图片数据
  • 分类/回归预测pbs,

它与具有空间关系的数据很好地配合使用。

传统上,它用于2D数据,但可以用于1D数据,CNN在某些1D pb上达到了最先进的水平。

您必须首先“明确定义”您要解决的问题(要处理的数据类型,分类/回归问题等),才能知道要使用哪种类型的体系结构。

您可以参考那些对我来说非常有用的链接,以帮助他们更多地了解这些概念:)。

希望这个添加将是有用的:p。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.