Questions tagged «conv-neural-network»

卷积神经网络是一种神经网络,其中只有层之间可能存在的连接的子集存在才能创建重叠区域。它们通常用于视觉任务。



4
为什么神经网络变得更深而不是更广泛?
近年来,卷积神经网络(或一般来说可能是深层神经网络)变得越来越深,最先进的网络从7层(AlexNet)到1000层(Residual Nets)在4的空间中年份。深度网络提高性能的原因在于,可以学习更复杂的非线性函数。如果有足够的训练数据,这将使网络更容易区分不同的类别。 但是,趋势似乎并没有随着每一层中参数的数量而变化。例如,尽管层数增加了很多,但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同,并且大小仍然相对较小。但是从我的直觉来看,似乎增加每层参数的数量将使每一层都有更丰富的数据源,从中可以学习其非线性函数;但是这个想法似乎已经被忽略了,只支持简单地增加更多的层,每个层都有少量的参数。 因此,尽管网络已变得“更深”,但它们并没有变得“更广泛”。为什么是这样?


2
为什么卷积神经网络不使用支持向量机进行分类?
近年来,卷积神经网络(CNN)已成为计算机视觉中对象识别的最新技术。通常,CNN由几个卷积层组成,然后是两个完全连接的层。这背后的一种直觉是,卷积层学习输入数据的更好表示,然后全连接层学习根据一组标签对这种表示进行分类。 但是,在CNN开始占主导地位之前,支持向量机(SVM)是最新技术。所以说SVM仍然比两层全连接神经网络更强大的分类器似乎是明智的。因此,我想知道为什么最新的CNN倾向于使用完全连接的层进行分类,而不是使用SVM?这样,您将两全其美:强大的要素表示和强大的分类器,而不是强大的要素表示,但只有弱分类器... 有任何想法吗?

4
内核如何应用于要素图以生成其他要素图?
我试图理解卷积神经网络的卷积部分。看下图: 在理解第一个卷积层时,我没有问题,在这里我们有4个不同的内核(大小为),我们将它们与输入图像进行卷积以获得4个特征图。k × kk×kk \times k 我不理解的是下一个卷积层,我们从4个特征图转到6个特征图。我假设在这一层中有6个内核(因此给出了6个输出特征图),但是这些内核如何在C1中显示的4个特征图上工作?内核是3维的,还是2维的,并在4个输入要素图中复制?

6
CNN中本地响应规范化的重要性
我发现Imagenet和其他大型CNN利用了本地响应规范化层。但是,我找不到关于它们的太多信息。它们有多重要,何时应使用? 来自http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers: “局部响应归一化层通过对局部输入区域进行归一化来执行一种“横向抑制”。在ACROSS_CHANNELS模式下,局部区域跨越附近的通道延伸,但是没有空间范围(即,它们的形状为local_size x 1 x 1)在WITHIN_CHANNEL模式下,局部区域在空间上延伸,但位于单独的通道中(即,它们的形状为1 x local_size x local_size)每个输入值除以(1+(α/ n)∑ix2i)β,其中n是每个局部区域的大小,总和取自以该值为中心的区域(必要时添加零填充)。” 编辑: 这些种类的层似乎影响最小,不再使用。基本上,它们的作用已被其他正则化技术(例如,辍学和批处理归一化),更好的初始化和训练方法所取代。请参阅下面的我的答案以获取更多详细信息。


4
什么是计算机视觉和卷积神经网络中的翻译不变性?
我没有计算机视觉背景,但是当我阅读一些图像处理和卷积神经网络相关的文章和论文时,经常遇到术语“ translation invariance或” translation invariant。 还是我读了很多卷积运算提供的信息translation invariance?!这是什么意思? 我本人总是将其翻译成自己的意思,好像这意味着如果我们以任何形状更改图像,则图像的实际概念不会改变。 例如,如果我旋转一个可以说的树的图像,那么无论我对那张照片做什么,它又都是一棵树。 而且我本人认为,可能发生在图像上的所有操作并以某种方式(裁剪,调整大小,灰度,着色等)进行转换都是这种方式。我不知道这是否是真的,所以如果有人可以向我解释这一点,我将不胜感激。



2
卷积神经网络中“特征图”(又名“激活图”)的定义是什么?
介绍背景 在卷积神经网络内,我们通常具有如下所示的一般结构/流程: 输入图像(即2D矢量x) (第一个卷积层(Conv1)从这里开始...) w1沿2D图像对一组滤镜()进行卷积(即进行z1 = w1*x + b1点积乘法),其中z13D b1为偏差。 应用激活函数(例如ReLu)使z1非线性(例如a1 = ReLu(z1))a1为3D。 (第二个卷积层(Conv2)从这里开始...) 沿新计算的激活量(即,进行z2 = w2*a1 + b2点积乘法)对一组滤波器进行卷积,其中z23D为,且b2为偏差。 应用激活函数(例如ReLu)使z2非线性(例如a2 = ReLu(z2))a2为3D。 问题 术语“功能图”的定义似乎因文学而异。具体来说: 对于第一个卷积层,“特征图”是否对应于输入矢量x,输出点积z1,输出激活a1或转换x为的“过程” a1或其他内容? 类似地,对于第二卷积层,“特征图”是否对应于输入激活a1,输出点积z2,输出激活a2,或转换a1为的“过程” a2或其他? 另外,术语“功能图” 与“激活图” 是否完全相同?(或者它们实际上是指两个不同的东西吗?) 其他参考: 神经网络和深度学习的片段-第6章: *这里使用的术语是宽松的。特别是,我使用“功能图”来表示不是由卷积层计算的功能,而是表示从该层输出的隐藏神经元的激活。这种轻微的术语滥用在研究文献中非常普遍。 Matt Zeiler的可视化和理解卷积网络的片段: 在本文中,我们介绍了一种可视化技术,该技术揭示了在模型的任何层上激发单个特征图的输入刺激。相比之下,我们的方法提供了不变性的非参数视图,显示了训练集中的哪些模式激活了特征图。局部对比操作,可标准化整个特征图的响应。[...]要检查给定的convnet激活,我们将该层中的所有其他激活设置为零,并将要素映射作为输入传递到附加的deconvnet层。convnet使用relu非线性来校正特征图,从而确保特征图始终为正。[...] convnet使用学习的过滤器对来自上一层的特征图进行卷积。[...]图6 这些可视化是输入模式的准确表示,当原始输入图像中与模式相对应的部分被遮挡时,可以刺激模型中给定的特征图,我们可以看到特征图中活动的明显下降。[...] 备注:在图1中还引入了术语“特征图”和“校正后的特征图”。 从片段斯坦福CS231n章在CNN: [...]通过这种可视化可以轻松注意到的一个危险陷阱是,对于许多不同的输入,某些激活图可能全为零,这可能表明过滤器失效,并且可能是高学习率的征兆[...]训练有素的AlexNet的第一张CONV层(左)和第五张CONV层(右)上看似典型的激活物,它们看着猫的照片。每个框都显示对应于某个过滤器的激活图。请注意,激活是稀疏的(大多数值是零,在此可视化中以黑色显示)并且大多数是局部的。 从片段A-Beginner's-引导到理解,卷积神经网络 [...]输入卷上的每个唯一位置都会产生一个数字。在所有位置上滑动过滤器后,您会发现剩下的是28 x 28 x 1的数字数组,我们称之为激活图或功能图。

1
回归的CNN架构?
我一直在研究回归问题,其中输入是图像,标签是80到350之间的连续值。图像是发生反应后的某些化学物质。原来的颜色表示剩余的另一种化学品的浓度,这就是模型要输出的-该化学品的浓度。图像可以旋转,翻转,镜像,并且预期的输出应该仍然相同。这种分析是在真实的实验室中完成的(非常专业的机器使用颜色分析来输出化学药品的浓度,就像我正在训练该模型一样)。 到目前为止,我仅试验了大致基于VGG(conv-conv-conv-pool块的多个序列)的模型。在尝试使用较新的体系结构(Inception,ResNets等)之前,我想研究一下是否存在其他更常用的图像回归体系结构。 数据集如下所示: 该数据集包含约5,000个250x250样本,我将其大小调整为64x64,因此训练更加容易。一旦找到有前途的体系结构,我将尝试更大分辨率的图像。 到目前为止,我的最佳模型在训练集和验证集上的均方误差约为0.3,这在我的用例中还远远不能接受。 到目前为止,我最好的模型如下所示: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

2
术语“饱和非线性”是什么意思?
我正在阅读具有深度卷积神经网络的ImageNet分类论文,在第3节中,他们解释了卷积神经网络的体系结构,并解释了如何使用以下方法: 非饱和非线性f(x)=max(0,x).f(x)=max(0,x)。f(x) = max(0, x). 因为训练起来更快。在那篇论文中,他们似乎将饱和非线性称为CNN中使用的更传统的函数,S形和双曲正切函数(即F(X )= 吨一个Ñ ħ (X )F(X)=Ť一种ñH(X)f(x) = tanh(x)和F(x )= 11 + e− x= (1 + e− x)− 1F(X)=1个1个+Ë-X=(1个+Ë-X)-1个f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}为饱和)。 他们为什么将这些功能称为“饱和”或“非饱和”?这些功能在什么意义上是“饱和”或“非饱和”的?这些术语在卷积神经网络的背景下意味着什么?它们是否用于其他机器学习(和统计)领域?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.