113

我还没有看到用这些术语准确说明的问题，这就是为什么我要提出一个新问题。

我感兴趣的不是神经网络的定义，而是了解深度神经网络的实际区别。

有关更多上下文：我知道什么是神经网络以及反向传播如何工作。我知道DNN必须具有多个隐藏层。但是，十年前，我在课堂上了解到，就神经网络能够表示的功能而言，具有多层或一层（不计算输入和输出层）是等效的（请参见Cybenko的通用逼近定理），并且更多的层使分析变得更加复杂而又不提高性能。显然，情况已不再如此。

我猜想可能是错误的，区别在于训练算法和属性，而不是结构，因此，如果答案能强调使DNN成为可能的原因（例如数学证明或随机玩网络），我将不胜感激。？）和期望（收敛例如，速度？）

neural-networks deep-learning

— 尼古拉斯
source

2

仅供参考：关于深度学习的幻灯片有多真实？

— Franck Dernoncourt，2015年

如果您要近似的函数是合成函数（由于物理定律，在图像处理和许多自然域中很常见）。可以证明，深层网络可以利用这种组合性，并以指数级更少的神经元数量（与单隐藏层网络相比）实现相同水平的逼近误差。参考：Poggio，Tomaso等。“为什么以及何时，深层而非浅层网络能够避免维数的诅咒：回顾。” 国际自动化与计算杂志（2017）

— DataHungry，2018年

您可能想看一下这篇文章

— Agcala

151

让我们从一个琐事入手：深度神经网络只是具有许多隐藏层的前馈网络。

这几乎是有关定义的全部内容。神经网络可以是递归的也可以是前馈的。前馈的图形中没有任何循环，可以分层组织。如果有“许多”层，那么我们说网络很深。

如何许多层进行一个网络必须有以资格作为深？对此没有明确的答案（有点像询问堆多少粒），但通常具有两个或多个隐藏层才算得很深。相反，仅具有单个隐藏层的网络通常称为“浅层”。我怀疑这里会发生通货膨胀，十年之内人们可能会认为任何少于十层的东西都是浅层的，仅适合幼儿园练习。非正式地，“较深”表示该网络很难处理。

这是一个插图，改编自这里：

但是，您真正要问的问题当然是，为什么有很多层会受益？

我认为，答案令人惊讶的是，没有人真正知道。有迹象表明，我将简要回顾以下一些常见的解释，但没有一个已经令人信服地证明是真实的，而一个甚至不能肯定有许多层是真正有益的。

我说这是令人惊讶的，因为深度学习非常流行，它每年打破所有记录（从图像识别，播放Go到自动翻译等），并被行业使用等。我们仍然不太确定为什么它会这么好。

我基地在我的讨论深度学习的古德费洛，Bengio和库维尔的书，出去在2017年，被广泛认为是在书上的深度学习。（可在线免费获得。）相关章节是6.4.1通用逼近属性和深度。

你写的

十年前，我在课堂上了解到，在神经网络能够表示的功能方面，具有多层或一层（不计算输入和输出层）是等效的。

您必须指的是所谓的通用逼近定理，该定理由 cybenko于1989年证明，并在1990年代被各种人推广。基本上说，浅层神经网络（具有1个隐藏层）可以近似任何函数，即原则上可以学习任何东西。对于各种非线性激活函数，包括当今大多数神经网络正在使用的整流线性单元，都是如此（教科书参考Leshno等，1993得出此结果）。

如果是这样，那么为什么每个人都使用深网？

好吧，天真的答案是因为它们工作得更好。这是深度学习书中的图，它显示了在一个特定任务中具有更多层的功能，但是在各种任务和领域中经常会观察到相同的现象：

我们知道，浅层网络的性能可以与深层网络一样好。但事实并非如此；他们通常不会。问题是---为什么？可能的答案：

也许一个浅层网络需要比深层神经网络更多的神经元？
也许浅层网络更难使用我们当前的算法进行训练（例如，其局部最小值极小，或者收敛速度较慢，等等）？
浅层架构可能不适合我们通常试图解决的问题（例如，对象识别是典型的“深层”，分层过程）？
还有吗

该深度学习书主张的要点＃1和＃3。首先，它认为浅层网络中的单元数量随着任务的复杂性呈指数增长。因此，为了有用，浅层网络可能需要非常大。可能比深度网络要大得多。这是基于许多论文的证明，在某些情况下，浅层网络将需要成倍数量的神经元。但是，例如MNIST分类还是围棋这样的情况还不清楚。其次，这本书说：

选择一个深层模型会编码一个非常普遍的信念，即我们要学习的功能应该包含几个较简单的功能的组合。从表示学习的角度来看，这可以解释为说我们相信学习问题包括发现一组潜在的变化因素，这些变化又可以用其他更简单的变化因素来描述。

我认为当前的“共识”是第1点和第3点的结合：对于实际任务，深层架构通常是有益的，而浅层架构则效率低下，并且需要更多神经元才能实现相同的性能。

但这还远未得到证实。考虑一下Zagoruyko和Komodakis，2016，宽余网络。具有150多个图层的残差网络在2015年出现，并赢得了各种图像识别比赛。这是一个巨大的成功，看起来像是支持深度的令人信服的论点。这是第一作者在剩余网络论文上的演讲中的一个图（请注意，时间在这里令人困惑，在左边）：

但是上面链接的论文显示，只有“ 16个”层的“宽”残留网络可以胜过150层以上的“深”网络。如果这是真的，那么上图的全部内容就会分解。

或考虑Ba和Caruana，2014年，《深网真的需要深度吗？：

在本文中，我们提供了经验证据，表明浅层网络能够学习与深层网络相同的功能，并且在某些情况下具有与深层网络相同数量的参数。为此，我们首先训练最先进的深度模型，然后再训练一个浅层模型以模仿该深层模型。使用下一节中描述的模型压缩方案训练模拟模型。值得注意的是，通过模型压缩，我们能够将浅网训练为与某些深层模型一样精确，即使当在原始模型上直接训练浅网时，我们也无法将这些浅网训练为与深层模型一样精确。带标签的训练数据。如果参数数量与深层网络相同的浅层网络可以学习模拟高保真度的深层网络，

如果为true，则表示正确的解释是我的项目符号＃2，而不是＃1或＃3。

正如我说的---还没有人真正知道。

结束语

在过去约10年的时间里，深度学习取得的成就确实令人惊讶，但其中的大部分进步都是通过反复试验而实现的，我们仍然缺乏非常深入的了解，究竟是什么使深度网络如此出色地工作。即使人们认为对于建立有效的深层网络至关重要的事情清单，每两年也会发生变化。

深度学习的复兴始于2006年，当时Geoffrey Hinton（从事神经网络研究20多年，没有任何人感兴趣）发表了几篇突破性论文，为训练深度网络提供了有效的方法（科学论文，神经计算论文）。诀窍是在开始梯度下降之前使用无监督的预训练。这些论文彻底改变了这一领域，并且几年来，人们一直认为无监督的预培训是关键。

然后在2010年，马滕斯（Martens）表明，可以使用二阶方法（所谓的无Hessian方法）来训练深度神经网络，并且可以胜过通过预训练而训练的网络：通过无Hessian优化进行深度学习。然后在2013年，Sutskever等人。表明随机梯度下降和一些非常聪明的技巧可以胜过无Hessian方法：关于深度学习中初始化和动量的重要性。同样，大约在2010年，人们意识到使用整流线性单位代替S形单位对梯度下降有很大的不同。辍学出现在2014年。残差网络出现在2015年。人们不断想出越来越多的有效方法来训练深度网络和十年前似乎很关键的见解如今通常被认为是令人讨厌的事情。所有这些主要是由反复试验驱动的，并且几乎不了解使某些事物运行良好而使某些事物无法运行的原因。训练深层网络就像一大把戏。成功的秘诀通常是事后合理化。

我们甚至不知道为什么深层网络会达到性能稳定水平；仅仅10年以前，人们就曾责怪当地的最低标准，但目前的想法是，这不是重点（当性能稳定时，梯度往往会很大）。这是关于深网络这样一个基本问题，我们甚至不知道这个。

更新：这是阿里·拉希米的NIPS 2017年的谈话机器学习炼丹上或多或少的主题：https://www.youtube.com/watch?v=Qi1Yry33TQE。

[此答案在2017年4月完全重写，因此下面的某些评论不再适用。]

— 阿米巴
source

2

反应不错！1）正如@Nicolas所提到的，事实证明存在一个定理（en.wikipedia.org/wiki/Universal_approximation_theorem）声称具有单个隐藏层和有限数量的神经元的前馈神经网络可以近似超立方体上的任何连续函数（包括DNN）。据称该结果与激活功能的选择无关。2）我不确定您的最后一句话（即Hinton加入Google）是否与DNN的近期成功有关？在DNN流行之后不久，Hinton加入了Google！

— 索比2015年

4

也许我们使用的术语有所不同。感知器没有隐藏层-输入是数据，输出是分类。多层网络由连接在一起的一堆感知器组成，因此第层的输出形成第层的输入。因此，具有单个隐藏层的网络具有三层（输入，隐藏，输出）。这个隐藏层是通用逼近的关键：缺乏感知层的感知器无法计算XOR之类的东西，但是多层网络可以。

n - 1

$n-1$

n

$n$

— 马特·克劳斯

2

线性问题似乎是两个问题的结合。感知器只能计算线性决策边界-它只能绘制直线以划分两个类别。多层网络可以“绘制”更复杂的边界。但是，除了多层网络的输出层外，感知器和多层网络都不使用线性激活函数。感知器激活功能是一种重物质（如果x> 0，则为1，否则为0）；多层网络通常使用S形，但通用近似的约束条件是。非常温和：非恒定，有界且单调递增。

— 马特·克劳斯

2

@amoeba很好的答案，一开始的图片让我无法阅读其余内容，但这是最好的。感知器是用于分类的线性回归的对应物，这就是为什么当人们使用封闭形式的解决方案（伪逆）来代替在线（sgd）方法来解决问题时，由于逻辑（sigmoid函数），它被称为Logistic回归。 =感知器。感知器/逻辑回归只能“画出”线性决策边界，这就是为什么将其称为线性。

— shuriken x blue 2015年

2

但是，多层感知器（您在左侧的第一张图中绘制的内容）可以组合多个此类线性决策边界，从而可以划分空间以解决（非线性）XOR问题，例如@Matt。因此，例如，如果您quin起眼睛，许多组合的线性决策边界都可以围成一个圆。这取决于您的想法-在较高的空间中，决策仍然是线性的，如果您熟悉内核，那也是一样。

— shuriken x blue 2015年

8

到目前为止，这是一个不错的答案，尽管这里有些事情没有人提及，但这是我的0.02 $

我只是以故事的形式回答，应该使事情变得更加有趣和清晰。这里没有tldr。在此过程中，您应该能够理解有什么区别。

DNN触发时会产生火花的原因有很多（星辰必须对齐，就像所有类似的事物一样，这是在正确的位置，正确的时间等问题）。

原因之一是数据的可用性，大量的数据（标记的数据）。如果您希望能够概括和学习诸如“通用先验”或“通用先验”（又称可在任务/应用程序之间重复使用的基本构件）之类的东西，那么您需要大量数据。我可能会添加野外数据，而不是在受控照明及所有条件下仔细记录在实验室中的无菌数据集。机械特克使（贴标）成为可能。

其次，使用GPU更快地训练大型网络的可能性使实验变得更快。ReLU单元也使计算速度更快，并且提供了它们的正则化，因为您现在需要在一层中使用更多的单元，以便能够压缩相同的信息，因为现在的层更加稀疏，因此在删除操作方面也很不错。此外，它们还帮助您解决了在堆叠多层时发生的重要问题。稍后更多。多种提高性能的技巧。就像使用小批量（实际上不利于最终误差）或卷积（实际上捕获的方差不如局部接受场）一样，但计算速度更快。

同时，人们正在争论是否喜欢更瘦或更胖，更小或更高，有或没有雀斑等。优化就像是发嘶嘶声还是爆炸一样，因此研究正朝着更复杂的训练方法发展，例如共轭梯度和牛顿法，最后他们都意识到没有免费的午餐。网络打。

逐渐消失的是梯度消失的问题。人们说：哇，那太远了，伙计！简而言之，这意味着很难在靠近输入的层上调整误差。当您在蛋糕上添加更多层时，变得太不稳定了。您无法将有意义的错误反向传播回第一层。层数越多，效果越差。笨蛋

有人发现，使用交叉熵作为损失函数（同样，分类和图像识别）可以提供某种形式的正则化功能，并有助于防止网络饱和，从而导致梯度无法很好地隐藏。

使事情成为可能的是使用无监督方法进行的每层预训练。基本上，您会使用一堆自动编码器，并且随着压缩率的提高，学习的抽象表示将越来越少。这些网络的权重用于初始化受监管的版本。这以另一种方式解决了梯度消失的问题：您已经从一个更好的开始位置开始了监督训练。因此，所有其他网络都开始起义。但是网络仍然需要监督，否则不可能保持大数据静止。

现在，最后一部分最终导致您的答案，这太复杂了，简而言之：为什么要增加层而不是仅一层。因为我们可以！以及因为上下文和不变特征描述符。和游泳池。

这是一个示例：您有一个图像数据集，如何使用该数据训练计划NN？好吧，天真地，让我们假设每一行，然后将其连接为一个长向量，这就是您的输入。你学什么？好吧，由于图像中的对象包含许多类型的方差，因此某些模糊的无意义函数可能看起来并不像任何东西，并且您无法区分相关的事物和无关的事物。在某些时候，网络需要忘记重新学习新东西的能力。因此存在容量问题。这是更多的非线性动力学，但是直觉是您需要增加神经元的数量才能在网络中包含更多信息。

因此，要点是，如果仅将图像作为一个整体输入，那么添加额外的图层对您来说并不会带来太大的作用，因为您将无法学习抽象，这非常重要。因此，从整体上做事情是行不通的，除非您在网络上做更简单的事情，例如专注于特定类型的对象，所以将自己限制为一个类，并选择一些全局属性作为分类目标。

那该怎么办呢？查看屏幕的边缘，然后尝试阅读此文本。问题？听起来很愚蠢，您需要查看所阅读的内容。否则，它太模糊/没有足够的分辨率/粒度。让我们将焦点区域称为感受场。网络也必须能够集中精力。基本上，不是将整个图像用作输入，而是沿图像移动了一个滑动窗口，然后将其用作网络的输入（随机性比人类的行为少一些）。现在，您还可以捕获像素与物体之间的相关性，还可以区分坐在沙发上的困猫和颠倒的猫蹦极跳。整洁，恢复了对人类的信仰。网络可以在多个级别上学习图像中的局部抽象。网络学习过滤器

因此，总而言之：接受域/卷积，无监督的初始化，校正的线性单位，丢失或其他正则化方法。如果您对此非常认真，我建议您看一看Schmidhuber的《神经网络中的深度学习：概述》，这是预印本的网址http://arxiv.org/abs/1404.7828

并记住：大量学习，深入数据。字。

— 手里剑x蓝色
source

嗨弗洛林，谢谢你的回答！我喜欢写作风格。当谈到滑动窗口时，您是指卷积NN的卷积层如何观察图像的不同部分并将其激活投影到较低维度的空间上吗？

— 尼古拉斯·

是的，卷积不是必需的，但是由于权重受到限制，因此它们的计算速度更快。在本文中，他们不使用卷积，而使用局部接收场。重要的关键字是本地/分层关键字：arxiv.org/pdf/1112.6209.pdf

— shuriken x blue

我也认为最接近的系统答案是sobi。他得到了我的支持。我只是在这里和那里添加了一些东西，还有一点盐和胡椒粉。

— shuriken x blue

6

用外行人的话来说，与经典神经网络的主要区别在于它们具有更多的隐藏层。

这个想法是在各层上添加标签，以形成多个抽象层：

例如，用于对象识别的深度神经网络：

第1层：单个像素
第2层：边缘
第三层：表格（圆形，正方形）
第n层：整个对象

您可以在Quora中找到有关此问题的很好的解释。

而且，如果您对此主题感兴趣，我建议您看一看这本书。

— 大卫·加斯克兹（David Gasquez）
source

1

感谢David，但我真的不明白如何仅添加标签会使其与众不同。我还记得，很难理解和分解神经网络对函数的编码方式。除了拥有更多的层次之外，还必须有其他事物。至于您给出的示例，我相信您可以单独训练（老派）神经网络来完成每个任务。

— Nicolas 2015年

当您像管道一样使用电源时，电源就来了，因此该层的输入和输出会在每一层堆叠。

— 戴维·加斯奎兹

我一直在阅读您的第一个链接，该链接是一个很好的资源，以及有关quora和se的其他相关问题，但是您给出的示例与我阅读的内容似乎并不准确。我将尝试回答自己的问题，总结这些读物。

— 尼古拉斯·2015年

2

尽管有针对性的资源很有趣，但是当前答复并没有回答问题。

— 尼古拉斯·

您能否指出一个标记了图层的示例（除了纯粹的描述方式）？毫无疑问，隐藏层似乎在每个隐藏层中依次具有更复杂的功能，但是“添加标签”似乎暗示着他们已经接受了专门的培训。

— 马特·克劳斯

2

一开始，神经网络（NN）和深度神经网络（DNN）之间的区别也让我有些困惑，但是不幸的是，“深度”仅指参数和层的数量。您可以将其视为所谓的“加拿大黑手党”下的某种重塑品牌。

几年前，我还把神经网络作为一堂课的一部分，我们使用NN进行了数字识别，波逼近和类似的应用，它具有多个隐藏层和输出以及DNN拥有的所有爵士乐。但是，那时我们所没有的就是计算能力。

迁移到DNN的可能性之所以令人满意，是因为硬件开发的进步。简而言之，现在我们可以计算更多，更快，更并行化（GPU上的DNN），而以前，时间是NN的瓶颈。

正如Wikipedia上用于深度学习的页面上所引用的那样，“深度”部分主要是指要素在多层上以非线性方式交互，从而执行要素提取和转换。这也是在标准NN中完成的，但是规模较小。

在同一个页面，在这里你必须定义“A深层神经网络（DNN）是一种人工神经网络（ANN）与输入和输出层之间的单位多隐藏层”。

— tt
source

嗨Mttk，谢谢您的回答，它为这个问题提供了更多的启示。关于您的最后一点，是的，结构性很容易解释差异（1层与多层），但是这些多层的使用方式差异似乎很重要，而且尚不清楚。这就是为什么我没有关注这个问题上结构..

— 尼古拉

老实说，我不同意我引用的最后一个定义-因为具有一个隐藏层的ANN / NN并不是真正有效，并且您需要多个来进行任何更复杂的预测（我之所以这样说是因为DNN是一个没用的流行语添加到一个本来很好的名词（NN）中。我认为您可以互换使用NN和DNN（因为如今没有人使用一层隐藏的NN），而各层DNN的使用方式不同（CNN，RBM，RNN，LSTM，CW-RNN等）。而不是DNN本身的想法。

— mttk 2015年

2

据我所知，今天所谓的深度神经网络（DNN）与旧的标准神经网络（NN）在本质上或哲学上都没有什么不同。虽然从理论上讲，虽然可以使用仅具有一个隐藏层的浅层NN近似任意NN ，但是，这并不意味着当使用相同算法和训练数据进行训练时，这两个网络的性能相似。实际上，对训练性能与深度网络相似的浅层网络的兴趣日益浓厚。但是，这样做的方法是先训练深层网络，然后训练浅层网络以模仿深度网络的最终输出（即倒数第二层的输出）。看到了，深层架构的优势在于，当神经元以层次结构进行布局时，当今的训练技术（反向传播）恰好能更好地工作。

可能要问的另一个问题是：为什么神经网络（特别是DNN）突然变得如此流行。据我了解，最近使DNN如此流行的神奇成分如下：

A.改进的数据集和数据处理能力

1.提供了具有数百万张不同图像的大规模数据集

2.快速的GPU实现向公众开放

B.改进的训练算法和网络架构

1.整流线性单位（ReLU）代替S型或正切

2.多年来演进的深度网络架构

A-1）直到最近，至少在计算机视觉领域，我们还无法在数百万个带标签的图像上训练模型；只是因为不存在具有该大小的标记数据集。事实证明，除了图像数量外，标签集的粒度也是DNN成功的关键因素（请参见Azizpour等人的本文图8 ）。

A-2）已经投入了大量的工程工作，以训练在实践中效果很好的DNN，最显着的是GPU实现的出现。DNN的第一个成功的GPU实现之一是在两个并行GPU上运行。但是，使用高端GPU训练DNN来训练1000种类别的120万张图像上的DNN（请参阅本文， Krizhevsky等人）。

B-1）使用简单的整流线性单位（ReLU）代替S形和正切函数可能是使DNN训练成为可能的最大基础。请注意，S型函数和tanh函数几乎在所有位置都具有几乎为零的梯度，这取决于它们从低激活水平过渡到高激活水平的速度。在极端情况下，当过渡突然发生时，我们得到一个阶跃函数，该函数的斜率在所有地方都为零，除了发生过渡的一个点。

B-2）多年来神经网络架构如何发展的故事使我想起了进化是如何改变自然界中生物体结构的。参数共享（例如在卷积层中），辍学正则化，初始化，学习速率计划，空间池化，更深层中的子采样以及现在被认为是训练DNN的标准的许多其他技巧已在开发，改进和最终针对年，使深层网络的培训成为当今的可能。

— 索比
source

3

+1。该线程中的第一个答案可以为OP的问题提供足够的答复。这里有很多好处。我唯一的主要评论是，除了您的A和B外，还有C：可用训练数据集的大小大量增加。这似乎是至少为A和B一样重要

— 阿米巴

1

我认为relu并不是那么重要：Alex krizhevsky的论文声称它使nn的学习速度提高了6倍。您提到的其他大多数网络结构更改都与卷积nns有关，卷积nns仅复制标准图像处理管道（好东西，但没有新见解）

— seanv507 2015年

1

@amoeba：数据集的大小在A以下。我更新了文本以突出显示它。

— 索比2015年

@ seanv507：确实，在编写答案时，我想到了卷积网络（ConvNets）。如果还有其他重要因素（与ConvNets无关），我想念了，如果您提到它们，我将不胜感激。我很乐意相应地更新我的答案。关于ReLU，由于梯度消失的问题，使用tanh和S型曲线进行nns训练要比使用ReLU困难得多：单元很容易饱和，一旦发生，又需要很长时间才能再次变得不饱和（当单元很小时，梯度很小）饱和）

— Sobi 2015年

2

“深度” NN和标准NN之间的区别纯粹是定性的：“深度”的含义没有定义。“深层”可以表示任何事物，包括Google，Facebook和co使用的极其复杂的体系结构（具有50-80甚至更多层）到2个隐藏层（总共4层）体系结构。如果您能找到声称可以使用单个隐藏层进行深度学习的文章，我也不会感到惊讶，因为“深度”的意义并不大。

“神经网络”这个词也没有非常精确的含义。它涵盖了非常庞大的模型集合，从随机的boltzzman机器（无向图）到具有各种激活功能的前馈体系结构。大多数NN都将使用反向传播技术进行训练，但并非必须如此，因此即使训练算法也不是很均匀。

总体而言，深度学习，深度神经网络和神经网络都已成为通俗易懂的词汇，涵盖了多种方法。

有关“已更改的内容”的良好介绍性参考：表示法的深度学习：展望，Bengio，2013年是对未来的很好的回顾和观点。另请参阅深网真的需要深层吗？Ba＆Caruana，2013年表明，深入研究可能对表象不起作用，但对学习却有用。

— 纪尧姆·德海恩（Guillaume Dehaene）
source

您提供的参考资料非常有帮助，但是当前形式的其余答案（读为“ NN并不表示任何东西，DNN并不表示任何东西，NN和DNN可以做很多事情”）不会多您考虑修改吗？

— Nicolas

1

为了扩展David Gasquez的答案，深度神经网络与传统神经网络之间的主要区别之一是，我们不只是将反向传播用于深度神经网络。

为什么？因为反向传播比训练较早的层更有效地训练较新的层-随着您在网络中的传播越来越早，误差会变得越来越小且越来越分散。因此，一个十层网络基本上将是七层随机权重，然后是三层拟合权重，并且表现得与三层网络一样好。看到这里更多。

因此，概念上的突破是将单独的问题（标记的层）视为单独的问题-如果我们首先尝试解决构建通用的第一层的问题，然后尝试解决构建通用的第二层的问题，最终，我们将拥有一个深层的功能空间，可以为我们的实际问题提供帮助。

— 马修·格雷夫斯
source

1

NN：

一个隐藏层就足够了，但是仍然可以多层，从左到右排序（模型：前馈NN）
仅在监督方式下进行训练（反向传播）
当使用多层时，同时训练所有层（相同的算法：反向传播），由于错误变得太小，因此更多的层使使用变得困难
很难理解每一层学到了什么

DNN：

需要多层，无方向的边缘（型号：受限的boltzman机）
首先以无监督的方式进行训练，其中网络通过学习再现其输入来学习相关特征，然后以对方法进行微调以进行分类的有监督的方式进行训练
从输入到输出层一层一层地训练（算法：对比发散）
每层显然都包含增加抽象的特征

转向DNN的原因是2006年发生了三项独立的突破。

关于NN的定理，问题涉及的是：

通用逼近定理或Cybenko定理：具有单个隐藏层的前馈神经网络可以近似任何连续函数。但是，实际上，如果使用单个隐藏层，则可能需要更多的神经元。

— 尼古拉斯
source

2

-1？真？我阅读了所有这些文献，并对这两种方法进行了逐点比较！请至少说出不正确的地方...

— Nicolas

3

我没有拒绝投票（也许拒绝投票的人不喜欢您回答自己的问题？但这在这里当然很好），但这是一件事，并不完全正确。您将其列为DNN的属性：边缘是无方向的，首先是以无监督的方式训练的，层是一个接一个地训练的-所有这些仅涉及Hinton在2006年提出的深层信念网络。一般而言，深度神经网络肯定是正确的，实际上，现在有很多方法可以训练深度神经网络，而并非所有这些。看我的答案。

— 变形虫

1

$O(n)$

我认为您应该退后一步，这已经使浅层AI重新兴起了-例如，用于情感分析和其他语言应用的单词袋，而视觉单词袋是DNN之前的图像识别方法。没有人说一句话是一种真正的语言模型，但这是一种有效的工程解决方案。因此，我想说DNN是更好的“视觉文字袋”-参见例如Szegedy等。2013年，神经网络和Nguyen等人的有趣特性。深度神经网络很容易被愚弄：无法识别图像的高置信度预测，其中很明显，没有学习到的高阶结构等（或DNN声称的内容）。

— seanv507
source

@amoeba这另一篇论文几乎是第一篇的伴随论文（同样有很多图像！）

— seanv507 2015年

0

深度学习是机器学习中的一组算法，旨在通过使用由多个非线性变换组成的架构来对数据中的高级抽象建模。

资料来源：Arno Candel

— 吉姆·鲍伊
source

神经网络和深度神经网络之间有什么区别，为什么深度神经网络工作得更好？

A.改进的数据集和数据处理能力

B.改进的训练算法和网络架构