Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。

3
堆叠多个LSTM有什么优势?
有什么优势,为什么一个人在深度网络中使用多个并排堆叠的LSTM?我正在使用LSTM将一系列输入表示为单个输入。因此,一旦有了这种单一表示形式,为什么还要再次通过呢? 我之所以这样问是因为我在自然语言生成程序中看到了这一点。

1
为什么将整流线性单位视为非线性?
为什么将整流线性单位(ReLU)的激活函数视为非线性? F(x )= 最大(0 ,x )f(x)=max(0,x) f(x) = \max(0,x) 当输入为正时,它们是线性的,并且据我了解,要释放深层网络的代表性力量,必须进行非线性激活,否则整个网络可以用一个层表示。


3
亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?
我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子: 尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。 如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是和β 2?β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗? 另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β1\beta_1β2β2\beta_2

2
克里热夫斯基的'12 CNN如何在第一层获得253,440个神经元?
在Alex Krizhevsky等人中。利用深层卷积神经网络对图像网络进行分类,它们会枚举每层神经元的数量(请参见下图)。 网络的输入为150,528维,网络其余层的神经元数量为253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。 3D视图 第一层之后所有层的神经元数量是清楚的。一种简单的计算神经元的方法是简单地乘以该层的三个维度(planes X width X height): 第2层: 27x27x128 * 2 = 186,624 第3层: 13x13x192 * 2 = 64,896 等等 但是,看一下第一层: 第1层: 55x55x48 * 2 = 290400 请注意,这与论文中所指定的不 253,440一样! 计算输出大小 计算卷积输出张量的另一种方法是: 如果输入图像是3D张量nInputPlane x height x width,输出图像尺寸将是nOutputPlane x owidth x oheight,其中 owidth = (width - kW) / dW …

2
如何初始化过滤矩阵的元素?
我试图通过编写不依赖库的Python代码(例如Convnet或TensorFlow)来更好地理解卷积神经网络,并且我陷入了如何选择内核矩阵值的文献中。在图像上执行卷积。 我试图在下图显示CNN图层的功能图之间的步骤中了解实现细节。 根据此图: 内核矩阵内核在图像上“步进”,创建特征图,其中每个像素是内核(或滤波器矩阵)的每个权重与输入图像的相应像素值之间的所有按元素乘积的总和。 我的问题是:我们如何初始化内核(或过滤器)矩阵的权重? 在上面的演示中,它们只是1和0,但是我认为这是从图中简化的。 是否在某些预处理步骤中对这些权重进行了训练?还是由用户明确选择?

3
堆叠卷积自动编码器的体系结构是什么?
因此,我正在尝试使用卷积网络对人的图像进行预训练。我阅读了论文(Paper1和Paper2)以及这个stackoverflow链接,但是我不确定我是否了解网络的结构(在论文中没有很好地定义)。 问题: 我可以让我的输入,然后是噪波层,接着是conv层,再是池化层-之后-在提供输出之前是否要进行解池(与输入图像相同)? 假设我有几张(135,240)张图片。如果使用32(12,21)个内核,然后使用(2,2)池化,则最终将得到32(62,110)个特征图。现在,我是否要分解以获取32(124、220)个特征图,然后对其进行展平?给我的(135,240)输出层之前? 如果我有多个这样的转换池层,是否应该一一训练它们-就像在堆叠的去噪自动编码器中一样?或者-我可以有类似input-conv-pool-conv-pool-conv-pool-output(输出与输入相同)的东西吗?在那种情况下,应该如何管理池化,池化?我是否应该仅在输出之前的最后一个池层中解池?再说一遍,该分池的调整大小因素应该是什么?是否打算将要素图恢复为输入的形状? 我应该在每个conv-pool-depool层之后引入噪声层吗? 然后在进行微调时-我是否应该只删除去池层,其余的保持不变。还是应该同时删除噪声层和去池化层 谁能指出我的网址/论文,其中详细介绍了这种堆叠式卷积自动编码器的架构,可以对图像进行预训练?

1
注意力机制到底是什么?
在过去的几年中,各种深度学习论文都使用了注意力机制。Open AI研究负责人Ilya Sutskever热情地称赞了他们:https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 普渡大学的Eugenio Culurciello声称应该放弃RNN和LSTM,而转而使用纯粹基于注意力的神经网络: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 这似乎有点夸张,但不可否认的是,纯粹基于注意力的模型在序列建模任务中做得很好:我们都知道Google恰当命名的论文,Attention是您所需要的 但是,基于注意力的模型到底是什么?我还没有找到关于此类模型的清晰说明。假设我要根据给定的历史值来预测多元时间序列的新值。很清楚如何使用具有LSTM单元的RNN来做到这一点。对于基于注意力的模型,我该怎么做?




4
为什么对于深度学习模型,softmax输出不是一个好的不确定性度量?
我已经在卷积神经网络(CNN)上工作了一段时间,主要是用于语义分割/实例分割的图像数据。我经常将网络输出的softmax可视化为“热图”,以查看特定类别的每个像素激活的数量。我将低激活率解释为“不确定” /“不确定”,将高激活率解释为“某些” /“自信”的预测。基本上这意味着解释SOFTMAX输出(值的范围内)作为模型的概率或(未)确定性量度。(0 ,1 )(0,1个)(0,1) (例如,我已经解释了在其像素上平均具有低softmax激活的对象/区域,这样CNN很难检测到,因此CNN对于预测这种对象“不确定”。) 在我看来,这通常是有效的,将额外的“不确定”区域样本添加到训练结果中可以改善这些结果。但是,我现在从不同方面经常听到,使用/解释softmax输出作为(不确定性)度量不是一个好主意,并且通常不鼓励这样做。为什么? 编辑:为了澄清我在这里要问的问题,到目前为止,我将在回答这个问题时详细阐述我的见解。但是,以下所有论点都没有向我说明**为什么它通常是个坏主意**,正如同事,主管反复说明的那样,例如“ 1.5” 在分类模型中,在管道末端(softmax输出)获得的概率向量通常被错误地解释为模型置信度 或在“背景”部分中: 尽管将卷积神经网络的最终softmax层给出的值解释为置信度分数可能很诱人,但我们需要注意不要过多地阅读它。 上面的资料源认为将softmax输出用作不确定性度量是不好的,原因是: 对真实图像的不可察觉的扰动可以将深层网络的softmax输出更改为任意值 这意味着softmax输出对于“不可察觉的扰动”并不稳健,因此它的输出不能用作概率。 另一篇论文提到“ softmax输出=置信度”的想法,并认为通过这种直觉网络可以很容易地被愚弄,从而产生“无法识别图像的高置信度输出”。 (...)与特定类别相对应的区域(在输入域中)可能比该类别的训练示例所占用的该区域中的空间大得多。结果是,图像可能位于分配给某个类别的区域内,因此在softmax输出中被分类为具有较大的峰值,而仍然与训练集中该类别中自然出现的图像相距甚远。 这意味着与训练数据相距甚远的数据永远不应获得很高的置信度,因为模型“无法”确定它(因为它从未见过)。 但是:这不是简单地质疑整个NN的泛化特性吗?即,具有softmax损失的NN不能很好地推广到(1)“无法察觉的扰动”或(2)远离训练数据的输入数据样本,例如无法识别的图像。 按照这种推理,我仍然不明白,为什么在实践中,没有经过抽象和人为改变的数据与训练数据(即大多数“真实”应用程序)相比,将softmax输出解释为“伪概率”是一个不好的选择理念。毕竟,它们似乎很好地代表了我的模型所确定的内容,即使它是不正确的(在这种情况下,我需要修复我的模型)。而且模型不确定性是否总是“仅”为近似值?

2
受限玻尔兹曼机器:如何在机器学习中使用?
背景: 是的,可以使用受限玻尔兹曼机(RBM)来启动神经网络的权重。此外,它可以在一个“层-层”的方式被用于建立一个深信念网络(即,培养一个上的顶部第层(ñ - 1 )个层,然后训练ñ + 1上的顶层第ñ个层,漂洗和重复...) ññn(n − 1 )(ñ-1个)(n-1)n + 1ñ+1个n+1ññn。 关于如何使用RBM,可以从《受限玻尔兹曼机器》(RBM)的“ 良好”教程的线程中找到详细信息,在该 文章中可以找到一些论文和教程。 我的问题是: RBM是否真的用于工业项目或学术项目中 如果是,如何使用它以及在哪个项目上使用? 有没有流行的库(例如tensorflow,Caffe,Theono等)提供RBM模块? 感谢分享。我想知道成果管理制在实践中是否真的有用。

2
促进神经网络
最近,我正在研究学习增强算法,例如adaboost,梯度增强,并且我知道最常用的弱学习者是树这一事实。我真的想知道最近有一些使用神经网络作为基础学习者的成功例子(我的意思是一些论文或文章)。

2
瓶颈架构在神经网络中如何工作?
我们将瓶颈架构定义为ResNet论文中发现的类型,其中[两个3x3转换层]替换为[一个1x1转换层,一个3x3转换层和另一个1x1转换层]。 我了解将1x1转换层用作尺寸缩减(和还原)的一种形式,这在另一篇文章中进行了解释。但是,我不清楚这种结构为什么像原始布局一样有效。 一些很好的解释可能包括:使用什么步幅,在什么层上?每个模块的示例输入和输出尺寸是多少?上图中的56x56功能图如何表示?64-d是否参考滤波器的数量,为什么与256-d滤波器不同?每层使用多少个权重或FLOP? 任何讨论都将不胜感激!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.