统计和大数据 deep-learning

6

Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做，将当前的机器学习与炼金术进行了比较。他的主张之一是，我们需要回到理论发展上，以得到证明基本结果的简单定理。当他这么说的时候，我开始寻找ML的主要定理，但找不到能很好理解主要结果的参考。所以这是我的问题：ML / DL中当前的主要数学定理（理论）是什么，它们证明了什么？我猜想瓦普尼克的工作会在这里进行。另外，主要的理论开放问题是什么？

45 machine-learning deep-learning theory

4

内核如何应用于要素图以生成其他要素图？

我试图理解卷积神经网络的卷积部分。看下图：在理解第一个卷积层时，我没有问题，在这里我们有4个不同的内核（大小为），我们将它们与输入图像进行卷积以获得4个特征图。k × kk×kk \times k 我不理解的是下一个卷积层，我们从4个特征图转到6个特征图。我假设在这一层中有6个内核（因此给出了6个输出特征图），但是这些内核如何在C1中显示的4个特征图上工作？内核是3维的，还是2维的，并在4个输入要素图中复制？

44 machine-learning neural-networks deep-learning conv-neural-network

7

面向初学者的神经网络参考（教科书，在线课程）

我想学习神经网络。我是计算语言学家。我知道统计机器学习方法，并且可以使用Python进行编码。我希望从其概念入手，并从计算语言学的角度了解一种或两种可能有用的流行模型。我浏览了网络以供参考，并找到了一些书籍和材料。 Ripley，Brian D.（1996）模式识别与神经网络，剑桥 Bishop，CM（1995年），《神经网络用于模式识别》，牛津：牛津大学出版社。一些链接，例如本文，这些课程笔记（多伦多大学心理学系），这些课程笔记（威斯康星大学计算机科学大学）和此幻灯片（Facebook研究）。如果有人知道课程，Coursera课程通常很好。我更喜欢具有清晰语言和大量示例的材料。

43 neural-networks deep-learning references natural-language computer-vision

6

CNN中本地响应规范化的重要性

我发现Imagenet和其他大型CNN利用了本地响应规范化层。但是，我找不到关于它们的太多信息。它们有多重要，何时应使用？来自http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers： “局部响应归一化层通过对局部输入区域进行归一化来执行一种“横向抑制”。在ACROSS_CHANNELS模式下，局部区域跨越附近的通道延伸，但是没有空间范围（即，它们的形状为local_size x 1 x 1）在WITHIN_CHANNEL模式下，局部区域在空间上延伸，但位于单独的通道中（即，它们的形状为1 x local_size x local_size）每个输入值除以（1+（α/ n）∑ix2i）β，其中n是每个局部区域的大小，总和取自以该值为中心的区域（必要时添加零填充）。” 编辑：这些种类的层似乎影响最小，不再使用。基本上，它们的作用已被其他正则化技术（例如，辍学和批处理归一化），更好的初始化和训练方法所取代。请参阅下面的我的答案以获取更多详细信息。

41 deep-learning convolution conv-neural-network

4

直线激活函数如何解决神经网络中消失的梯度问题？

我发现整流线性单位（ReLU）在许多地方被赞誉为神经网络消失梯度问题的一种解决方案。即，使用max（0，x）作为激活函数。当激活为正时，很明显它比S型激活函数好，因为它的推导始终为1，而不是大x的任意小值。另一方面，当x小于0时，导数恰好为0。在最坏的情况下，当一个单位从未被激活时，该单位的权重也将不再变化，并且该单位将永远无用-这似乎甚至比消失得很小的渐变还要差。学习算法在使用ReLU时如何处理该问题？

40 machine-learning neural-networks deep-learning gradient-descent

3

深度学习中选择超参数的指南

我正在寻找一篇可以帮助指导如何选择深度结构的超参数（如堆叠式自动编码器或深度信任网络）的指南。超参数很多，我对如何选择它们感到很困惑。另外，也不可以使用交叉验证，因为培训确实需要很多时间！

38 machine-learning deep-learning deep-belief-networks hyperparameter

7

为什么不进行正则化解决深度神经网络对数据的渴望？

我通常在神经网络（尤其是深度神经网络）的环境中经常遇到的一个问题是，它们“渴望数据”-也就是说，除非我们拥有大量数据集，否则它们的性能将不佳用来训练网络。我的理解是，这是由于NNet（尤其是Deep NNet）具有许多自由度的事实。因此，作为一个模型，NNet具有大量参数，并且如果模型的参数数量相对于训练数据点的数量很大，则存在过拟合的趋势。但是，为什么不能通过正则化解决此问题？据我所知，NNets可以使用L1和L2正则化，也有自己的正则化方法（例如dropout），可以减少网络中的参数数量。我们是否可以选择我们的正则化方法以使它们强制简约并限制网络的大小？为了阐明我的想法：假设我们使用大型Deep NNet来尝试对数据建模，但是数据集很小，实际上可以通过线性模型建模。那么为什么网络权重不会以一种神经元模拟线性回归而所有其他神经元收敛为零的方式收敛呢？为什么正则化对此没有帮助？

37 neural-networks deep-learning regularization

4

CNN中“内核”和“过滤器”之间的区别

在卷积神经网络中术语“内核”和“过滤器”有什么区别？

37 neural-networks terminology deep-learning conv-neural-network

4

当我的神经网络不能很好地泛化时该怎么办？

我正在训练一个神经网络，训练损失减少了，但是验证损失却没有，或者减少的程度比我预期的要少，这是基于具有非常相似的体系结构和数据的参考或实验得出的。我怎样才能解决这个问题？至于问题当我的神经网络不学习时该怎么办？受此问题启发，该问题被故意保留为通用，以便可以将其他有关如何将神经网络的泛化误差降低到已证明可达到的水平的问题作为该问题的副本来解决。另请参阅有关Meta的专用线程：是否存在一个通用问题，我们可以将以下类型的问题重定向到“为什么我的神经网络不能很好地泛化？”

36 neural-networks deep-learning

3

池层是在辍学层之前还是之后添加的？

我正在创建一个卷积神经网络（CNN），其中有一个卷积层，后跟一个池化层，我想应用dropout来减少过度拟合。我有种感觉，应该在池化层之后应用辍学层，但是我真的没有什么可以支持的。在何处添加辍学图层？在池化层之前还是之后？

35 deep-learning conv-neural-network dropout

4

稀疏编码和自动编码器有什么区别？

稀疏编码被定义为学习一组超完备的基础向量来表示输入向量（<-为什么要这样做）。稀疏编码和自动编码器有什么区别？什么时候使用稀疏编码和自动编码器？

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

3

在深度卷积神经网络中进行预训练？

有没有人看过关于深度卷积神经网络中的预训练的文献？我只在自动编码器或受限的Botzman机器上看到过无监督的预训练。

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

为什么没有像AlphaGo这样的国际象棋深度强化学习引擎？

长期以来，计算机一直能够使用“强力”技术下棋，搜索到一定深度然后评估位置。但是，AlphaGo计算机仅使用ANN评估位置（据我所知，它不进行任何深度搜索）。是否可以创建与AlphaGo玩Go相同的方式下棋的国际象棋引擎？为什么没有人这样做？该程序的性能是否会比今天的顶级国际象棋引擎（和国际象棋玩家）更好？

32 neural-networks deep-learning reinforcement-learning games

2

卷积神经网络中“特征图”（又名“激活图”）的定义是什么？

介绍背景在卷积神经网络内，我们通常具有如下所示的一般结构/流程：输入图像（即2D矢量x）（第一个卷积层（Conv1）从这里开始...） w1沿2D图像对一组滤镜（）进行卷积（即进行z1 = w1*x + b1点积乘法），其中z13D b1为偏差。应用激活函数（例如ReLu）使z1非线性（例如a1 = ReLu(z1)）a1为3D。（第二个卷积层（Conv2）从这里开始...）沿新计算的激活量（即，进行z2 = w2*a1 + b2点积乘法）对一组滤波器进行卷积，其中z23D为，且b2为偏差。应用激活函数（例如ReLu）使z2非线性（例如a2 = ReLu(z2)）a2为3D。问题术语“功能图”的定义似乎因文学而异。具体来说：对于第一个卷积层，“特征图”是否对应于输入矢量x，输出点积z1，输出激活a1或转换x为的“过程” a1或其他内容？类似地，对于第二卷积层，“特征图”是否对应于输入激活a1，输出点积z2，输出激活a2，或转换a1为的“过程” a2或其他？另外，术语“功能图” 与“激活图” 是否完全相同？（或者它们实际上是指两个不同的东西吗？）其他参考：神经网络和深度学习的片段-第6章： *这里使用的术语是宽松的。特别是，我使用“功能图”来表示不是由卷积层计算的功能，而是表示从该层输出的隐藏神经元的激活。这种轻微的术语滥用在研究文献中非常普遍。 Matt Zeiler的可视化和理解卷积网络的片段：在本文中，我们介绍了一种可视化技术，该技术揭示了在模型的任何层上激发单个特征图的输入刺激。相比之下，我们的方法提供了不变性的非参数视图，显示了训练集中的哪些模式激活了特征图。局部对比操作，可标准化整个特征图的响应。[...]要检查给定的convnet激活，我们将该层中的所有其他激活设置为零，并将要素映射作为输入传递到附加的deconvnet层。convnet使用relu非线性来校正特征图，从而确保特征图始终为正。[...] convnet使用学习的过滤器对来自上一层的特征图进行卷积。[...]图6 这些可视化是输入模式的准确表示，当原始输入图像中与模式相对应的部分被遮挡时，可以刺激模型中给定的特征图，我们可以看到特征图中活动的明显下降。[...] 备注：在图1中还引入了术语“特征图”和“校正后的特征图”。从片段斯坦福CS231n章在CNN： [...]通过这种可视化可以轻松注意到的一个危险陷阱是，对于许多不同的输入，某些激活图可能全为零，这可能表明过滤器失效，并且可能是高学习率的征兆[...]训练有素的AlexNet的第一张CONV层（左）和第五张CONV层（右）上看似典型的激活物，它们看着猫的照片。每个框都显示对应于某个过滤器的激活图。请注意，激活是稀疏的（大多数值是零，在此可视化中以黑色显示）并且大多数是局部的。从片段A-Beginner's-引导到理解，卷积神经网络 [...]输入卷上的每个唯一位置都会产生一个数字。在所有位置上滑动过滤器后，您会发现剩下的是28 x 28 x 1的数字数组，我们称之为激活图或功能图。

32 neural-networks deep-learning conv-neural-network

3

在Tensorflow中构建自动编码器以超越PCA

Hinton和Salakhutdinov在利用神经网络降低数据的维数方面，《科学》（Science） 2006年提出了通过使用深度自动编码器来实现非线性PCA的方法。我曾多次尝试使用Tensorflow构建和训练PCA自动编码器，但我从未获得过比线性PCA更好的结果。如何有效地训练自动编码器？（后来由@amoeba编辑：这个问题的原始版本包含Python Tensorflow代码，这些代码无法正常运行。您可以在编辑历史记录中找到它。）

31 pca python deep-learning tensorflow autoencoders

Questions tagged «deep-learning»