Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。

2
残留网络是否与梯度提升相关?
最近,我们看到了残差神经网络的出现,其中,每个层都由一个计算模块和一个快捷连接组成,该连接保留了该层的输入,例如第i层的输出,表现为: 该网络允许提取残差特征并允许更深的深度,同时对消失的梯度问题更鲁棒,从而实现了最先进的性能。cicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 深入研究了梯度提升,这是机器学习领域中一种非常强大的集成技术,它似乎也对损失的残差执行了一种梯度优化形式,很难不看到某种形式的相似性。 我知道它们相似但不相同 -我注意到的一个主要区别是,梯度增强对加法项进行了优化,而残差网络优化了整个网络。 我没有看到He等人在他们的原始论文中注意到这是他们动机的一部分。因此,我想知道您对此主题有何见解,并要求您共享自己拥有的有趣资源。 谢谢。

3
Word2Vec的跳过语法模型如何生成输出向量?
我在理解Word2Vec算法的跳过语法模型时遇到问题。 在连续词袋中,很容易看到上下文词如何在神经网络中“拟合”,因为您基本上是在将每个一次性编码表示形式与输入矩阵W相乘后对它们进行平均。 但是,在skip-gram的情况下,您只能通过将一热点编码与输入矩阵相乘来获得输入词向量,然后假设通过将上下文词乘以C(=窗口大小)来表示上下文词输入矢量表示,输出矩阵为W'。 我的意思是说,词汇量为,编码为,输入矩阵,作为输出矩阵。给定单词具有一词热编码和上下文单词和(具有热代表和),如果将乘以输入矩阵,则得到,现在如何从中生成得分矢量?Ñ w ^ ∈ [R V × Ñ W¯¯ ' ∈ [R Ñ × V瓦特我X 我瓦特Ĵ 瓦特ħ X Ĵ X ħ X 我 W¯¯ ħ:= X Ť 我 W¯¯ = w ^ (我,⋅ ) ∈ [R Ñ ÇVVVNNNW∈RV×NW∈RV×NW \in \mathbb{R}^{V\times N}W′∈RN×VW′∈RN×VW' \in \mathbb{R}^{N\times V}wiwiw_ixixix_iwjwjw_jwhwhw_hxjxjx_jxhxhx_hxixix_iWWWh:=xTiW=W(i,⋅)∈RNh:=xiTW=W(i,⋅)∈RN{\bf h} := x_i^TW …

2
使用部分“未知”数据进行分类
假设我想学习一个分类器,该分类器将数字向量作为输入,并给类标签作为输出。我的训练数据由大量输入输出对组成。 但是,当我要测试一些新数据时,该数据通常仅部分完成。例如,如果输入向量的长度为100,则可能仅给30个元素提供值,其余的为“未知”。 例如,考虑在已知图像部分被遮挡的情况下进行图像识别。或考虑已知部分数据已损坏的一般意义上的分类。在所有情况下,我都确切知道数据向量中的哪些元素是未知部分。 我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但是鉴于已知元素通常比已知元素更多,所以这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整的数据进行训练,但这可能需要详尽地采样已知和未知元素的所有组合。 我特别在考虑神经网络,但是我对其他分类器持开放态度。 有任何想法吗?谢谢!


2
卷积神经网络中的过滤器和激活图如何连接?
给定层的激活图如何连接到该层的过滤器?我不是在问如何在过滤器和激活图之间进行卷积运算,我是在问这两个具有的连接类型。 例如,假设您要进行完全连接。在给定的层中,您有f个过滤器和n个激活图。您将在下一层获得f * n个激活图,激活图的数量将随每个新层的增加而增加。这是我认为完成的方式。 或者您可以说每个过滤器仅连接到一个激活图。在这种情况下,过滤器的数量将等于激活图的数量,并且每个层将具有相同数量的过滤器和激活图。这是我的网络的当前体系结构,似乎学习得很好。 我感到困惑的主要原因是看网上看到的卷积图。其中一些在过滤器和激活图之间具有“完全连接”,例如- 在第一层中,您有4个激活图,大概有2个过滤器。每个图都与每个过滤器卷积,从而在下一层生成8个图。看起来很棒。 但是,这里的架构对我来说没有意义- 您如何从第一层的6张地图转到第二层的16张地图?我可以想到从6张地图中获取16张地图的方法,但这样做毫无意义。


4
为什么我们不只是学习超级参数?
我正在实施一篇颇受欢迎的论文“ 解释和利用对抗性示例 ”,在该论文中,它训练了对抗性目标函数 J''(θ)=αJ(θ)+(1 −α)J'(θ)。 它将α视为超参数。α可以是0.1、0.2、0.3等。 不管这份具体论文如何,我都想知道,为什么我们不只是将α纳入参数并学习最佳的α? 这样做的缺点是什么?是因为过度拟合吗?如果是这样,为什么只学习1个参数会导致过拟合呢?


1
我应该使用什么损失函数来对seq2seq RNN模型进行评分?
我正在研究Cho 2014论文,该论文介绍了用于seq2seq建模的编码器-解码器体系结构。 在本文中,他们似乎使用给定输入(或负对数似然)的输出概率作为长度为M的输入和长度为N的输出y的损失函数:xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m) 但是,我认为将其用作损失函数会遇到一些问题: 似乎假设教师在训练期间是强迫的(即,不是使用解码器的位置猜测作为下一次迭代的输入,而是使用已知标记。 它不会惩罚长序列。由于概率是输出的到N,因此如果解码器生成更长的序列,则第一个N之后的所有内容都不会计入损失。111NNNNNN 如果模型预测字符串尽头的早期令牌,则损失函数仍需要步-这意味着我们将基于未经训练的模型“流形”生成输出。这似乎草率。NNN 这些顾虑是否有效?如果是这样,那么向更高级的损失功能迈进了吗?



3
可以训练神经网络以某种样式绘制图片吗?
可以训练神经网络以某种样式绘制图片吗?(因此,它会拍摄图像并以训练有素的样式重绘。) 是否有经过批准的技术可用于此类事情?我知道DeepArt算法。可以用特定的图案(例如,vangoghify图像)填充主图像,这很好,但是我正在寻找不同的东西,例如,从输入的肖像中以某种样式制作卡通。


1
如何确定CNN中卷积运算符的数量?
在使用卷积神经网络(CNN)进行计算机视觉任务(例如对象分类)时,该网络具有出色的性能。但是我不确定如何在卷积层中设置参数。例如,在灰度图像(480x480)中,第一卷积层可以使用像的卷积算子11x11x10,其中数字10表示卷积算子的数量。 问题是如何确定CNN中卷积运算符的数量?

2
WaveNet并不是真正的膨胀卷积,是吗?
在最近的WaveNet论文中,作者将他们的模型称为具有膨胀卷积的堆叠层。他们还产生以下图表,解释“常规”卷积和膨胀卷积之间的区别。 常规卷积看起来像是 一个卷积为2且步幅为1的卷积,重复4层。 然后,他们展示了其模型所使用的体系结构,它们称为膨胀卷积。看起来像这样。 他们说每一层的膨胀都增加了(1、2、4、8)。但是对我来说,这看起来像是常规卷积,滤镜大小为2,步幅为2,重复了4层。 据我了解,一个过滤器大小为2,步幅为1,膨胀为(1、2、4、8、8)的膨胀卷积看起来像这样。 在WaveNet图表中,没有一个过滤器会跳过可用的输入。没有孔。在我的图中,每个过滤器跳过(d-1)个可用输入。这是扩张应该不会起作用的方式吗? 所以我的问题是,以下哪个命题是正确的? 我不了解膨胀和/或规则卷积。 Deepmind实际上并没有实现膨胀卷积,而是跨步卷积,但是滥用了膨胀一词。 Deepmind确实实现了膨胀卷积,但没有正确实现图表。 我对TensorFlow代码的理解不够流利,无法理解他们的代码到底在做什么,但是我确实在Stack Exchange上发布了一个相关的问题,其中包含一些可以回答这个问题的代码。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.