Questions tagged «convolutional-neural-networks»

对于有关卷积神经网络(也称为CNN或ConvNet)的问题。

8
科学家是否知道人工神经网络内部正在发生什么?
科学家或研究专家是否从厨房知道复杂的“深度”神经网络中发生的情况,该神经网络会立即触发至少数百万个连接?他们是否了解其背后的过程(例如,内部正在发生什么以及它如何正常工作),还是一个争论的话题? 例如,这项研究说: 但是,对于为什么它们表现如此出色或如何进行改进尚无明确的了解。 那么这是否意味着科学家实际上不知道复杂的卷积网络模型如何工作?


3
神经网络如何处理变化的输入大小?
据我所知,神经网络在输入层中具有固定数量的神经元。 如果在类似NLP的上下文中使用神经网络,则大小不同的句子或文本块将被馈送到网络。如何将变化的输入大小与网络输入层的固定大小相协调?换句话说,如何使这种网络具有足够的灵活性以处理可能从一个单词到多页文本的输入? 如果我对输入神经元数量固定的假设是错误的,并且将新的输入神经元添加到网络中或从网络中删除以匹配输入大小,那么我将看不到如何训练它们。 我以NLP为例,但是许多问题本质上是不可预测的输入大小。我对处理此问题的一般方法感兴趣。 对于图像,很明显,您可以将上/下采样到固定大小,但是对于文本,这似乎是不可能的方法,因为添加/删除文本会更改原始输入的含义。

8
在CNN中,每个新滤波器对每个输入通道的权重是否不同,还是在输入通道中使用的每个滤波器的权重相同?
我的理解是,卷积神经网络的卷积层具有四个维度:input_channels,filter_height,filter_width,number_of_filters。此外,据我了解,每个新过滤器都只是在所有input_channels(或上一层的特征/激活图)上盘旋。 但是,CS231下图显示了每个滤波器(红色)应用于单个通道,而不是跨通道使用相同的滤波器。这似乎表明每个通道都有一个单独的滤镜(在这种情况下,我假设它们是输入图像的三个颜色通道,但是对所有输入通道都适用)。 这令人困惑-每个输入通道是否都有不同的唯一过滤器? 资料来源:http : //cs231n.github.io/convolutional-networks/ 上图似乎与奥雷利(O'reilly)的“深度学习基础”节选中的矛盾: “ ...过滤器不仅可以在单个要素地图上运行,而且还可以在特定图层上生成的全部要素地图上运行...因此,要素地图必须能够在多个实体上进行操作,不只是区域” ...此外,据我了解,以下这些图像表示THESAME过滤器仅在所有三个输入通道上卷积(与上面的CS231图形相反):



3
如何在CNN中处理大尺寸图像?
假设在CNN中需要使用10K大小为2400 x 2400的图像,我认为人们会使用的常规计算机是Acc。现在的问题是如何在没有下采样特权的情况下处理如此大的图像大小。 这是系统要求: Ubuntu 16.04 64位RAM 16 GB GPU 8 GB硬盘500 GB 1)是否有任何技术可以处理要训练的大图像? 2)合理使用多少批量? 3)是否可以采取任何预防措施或可以增加或减少硬件资源?

3
机器学习在很大程度上尚未探索哪些拓扑?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 28天前关闭。 几何与AI 矩阵,多维数据集,层,堆栈和层次结构就是我们可以准确地称为拓扑的东西。在这种情况下,将拓扑视为学习系统的更高级别的几何设计。 随着复杂性的提高,将这些拓扑表示为有向图结构通常很有用。状态图和马尔可夫在博弈论上的工作是经常使用有向图的两个地方。有向图具有顶点(通常显示为封闭形状),并且边缘通常显示为连接形状的箭头。 我们还可以将GAN表示为有向图,其中每个网络的输出以对抗的方式驱动另一个网络的训练。GAN的拓扑结构类似于莫比乌斯带。 我们不能发现新的设计和体系结构,不仅要了解收敛于最佳解决方案或跟踪一个最优解决方案的数学原理,还要了解可以支持这种收敛的网络连接拓扑。这就像先开发处理器,然后在编写操作系统之前先想象一下操作系统需要什么。 为了瞥见我们尚未考虑的拓扑,让我们首先看一下那些拓扑。 第一步-二维拉伸 在1980年代,通过扩展原始感知器设计获得了成功。研究人员增加了第二个维度来创建多层神经网络。通过误差函数梯度的反向传播,通过激活率梯度的反向传播,实现了合理的收敛,该激活函数的梯度因学习率而衰减,并受其他元参数抑制。 第二步-向离散输入信号添加尺寸 我们看到了基于现有手动调整图像卷积技术的卷积网络的出现,这些技术为网络输入引入了尺寸:垂直位置,颜色分量和框架。最后一个维度对于当代电影制作中的CGI,面部替换以及其他形态技术至关重要。没有它,我们将无法生成图像,进行分类和去除噪声。 第三步-网络堆栈 我们看到在1990年代后期出现了许多神经网络,其中一个网络的训练由另一个网络监督。这是概念层的引入,无论是神经元的连续层还是图像中的颜色层。这种类型的分层也不是递归的。它更像自然世界,其中一个结构是另一种完全不同的结构中的器官。 第四步-网络层次结构 我们看到,在2000年代和2010年代初(拉普拉斯等人)进行的研究中,神经网络的层次结构频繁出现,这继续了神经网络之间的相互作用并继续了哺乳动物的大脑类比。现在,我们看到元结构,其中整个网络在表示拓扑的有向图中成为顶点。 第五步%mdash; 从笛卡尔方向出发 非笛卡尔系统重复排列的细胞及其之间的联系已开始出现在文献中。例如,量规等规卷积网络和二十面体CNN(Taco S.Cohen,Maurice Weiler,Berkay Kicanaoglu,Max Welling,2019)研究了基于凸正二十面体的布置。 总结 对于顶点和衰减矩阵,层具有通常价值的激活函数,这些函数映射到相邻层之间的详尽的定向边缘集[1]。图像卷积层通常为二维顶点排列,其衰减立方体映射到相邻层之间的一组定向边的缩减集合[2]。堆栈具有完整的分层网络,作为元有向图中的顶点,这些元顶点按顺序连接,每个边都是训练元参数,增强(实时反馈)信号或某些其他学习控制。网络的层次结构反映了可以聚合多个控件并指导较低级别的学习的概念,或者反映了可以由一个较高级别的主管网络控制多个学习元素的情况。 学习拓扑趋势分析 我们可以分析机器学习架构的趋势。我们有三种拓扑趋势。 因果维度的深度-信号处理的层,其中一层激活的输出通过衰减参数(权重)矩阵馈送到下一层的输入。随着建立更多的控制,仅从反向传播中的基本梯度下降开始,就可以实现更大的深度。 输入信号的维数-从标量输入到超立方体(视频具有水平,垂直,包括透明度和帧的色深-请注意,这与感知器意义上的输入数量不同。 拓扑发展-以上两个本质上都是笛卡尔。尺寸与现有尺寸成直角添加。由于网络以层次结构连接(如拉普拉斯层次结构),莫比乌斯带像圆圈一样(如GAN),因此趋势是地形性的,最好用有向图表示,其中顶点不是神经元,而是较小的网络。 缺少哪些拓扑? 本节扩展标题问题的含义。 有什么理由可以安排多个每个代表神经网络的元顶点,以便多个主管元顶点可以联合起来监督多个员工元顶点? 为什么误差信号的反向传播是负反馈的唯一非线性等效形式? 在代表控件的两个倒数边缘的情况下,不能使用元顶点之间的协作而不是监督? 由于神经网络主要用于学习非线性现象,因此为什么在网络的设计或互连中禁止其他类型的闭合路径? 有什么理由不能将声音添加到图片中以便可以自动对视频片段进行分类?如果是这样,电影剧本是否可以提取电影的特征,并且可以使用对抗性体系结构生成电影剧本并制作电影而无需电影制片厂系统?作为有向图,该拓扑将是什么样? 尽管正交排列的像元可以模拟非正交顶点和边缘的任意规则堆积排列,但是在计算机视觉中,照相机的倾斜度通常为正负90度以外,这样做是否有效? 在以自然语言理解和组装或人工认知为目标的学习系统中,将单个细胞垂直排列在AI系统中的网络中还是将其垂直排列在AI系统中是有效的吗? 笔记 MLP中的人造细胞使用浮点或定点算术传递函数,而不是基于基于幅度和接近度的阈值的电化学脉冲传输。它们不是对神经元的真实模拟,因此将顶点神经元称为这种分析的误称。 图像特征的相关性和紧邻像素之间的相对变化远高于远处像素。



3
使用神经网络识别矩阵中的模式
我正在尝试开发一种神经网络,该网络可以识别CAD模型中的设计特征(即槽,凸台,孔,凹穴,台阶)。 我打算用于网络的输入数据是anxn矩阵(其中n是CAD模型中的面数)。矩阵右上角三角形中的“ 1”表示两个面之间的凸关系,而左下角三角形中的“ 1”表示凹关系。两个位置均为零表示面不相邻。下图给出了这样一个矩阵的例子。 可以说,我将最大模型尺寸设置为20个面,并对小于此尺寸的任何物体应用填充,以使网络输入的尺寸恒定。 我希望能够识别5种不同的设计特征,因此将具有5种输出神经元-[槽,袋,孔,凸台,台阶] 我会说这成为一种“模式识别”问题,对吗?例如,如果我为网络提供了许多训练模型-以及描述模型中存在的设计特征的标签,网络会学会识别与某些设计特征相关的矩阵中表示的特定邻接模式吗? 我是机器学习的一个完整的初学者,我试图了解这种方法是否有效-如果需要更多信息来理解问题,请发表评论。任何输入或帮助,将不胜感激,谢谢。


2
使用AI或神经网络进行徽标检测
我正在尝试检测视频文件中的电视频道徽标,因此只需给定输入.mp4视频,即可检测它是否在特定帧(例如第一帧)中存在该徽标。 我们预先有该徽标(尽管可能不是%100的相同尺寸),并且位置始终是固定的。 我已经有一个基于模式匹配的方法。但这要求图案必须为%100相同大小。我想使用深度学习和神经网络来实现这一目标。我怎样才能做到这一点?相信CNN可以有更高的效率?

1
对于DNN的实际使用,白噪声有多少问题?
我读到深度神经网络可以相对容易地被愚弄(链接),从而使人们对完全(或至少大部分)不在置信对象范围内的合成/人工图像的识别具有很高的信心。 就我个人而言,我真的没有看到DNN对那些合成/人造图像具有高置信度的大问题,但是我认为对白噪声(链接)具有高置信度可能是一个问题,因为这是相机可能看到的一种真正的自然现象。在现实世界。 对于DNN的实际使用,白噪声有多少问题?可以通过某种方式防止从普通噪声中检测到这种误报吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.