Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。



1
机器学习模型的“能力”是什么?
我正在研究Carl Doersch撰写的有关变式自动编码器的教程。在第二页中指出: 此类框架中最受欢迎的框架之一是本教程的主题“变体自动编码器” [1,3]。该模型的假设很弱,并且通过反向传播训练很快。VAE确实可以近似,但是在给定大容量模型的情况下,这种近似引入的误差可以说很小。这些特征促使它们迅速普及。 过去,我已经阅读了有关大容量模型的这类说法,但似乎没有找到明确的定义。我也发现了这个相关的stackoverflow问题,但对我来说,答案非常不令人满意。 是否有模型容量的定义?你能衡量吗?

1
为什么我们不使用非恒定学习率来实现除神经网络以外的其他事物的梯度体面?
在梯度下降中使用非恒定的学习率,深度学习文学充满了巧妙的技巧。像指数衰减,RMSprop,Adagrad等之类的东西很容易实现,并且在每个深度学习包中都可用,但是在神经网络之外似乎并不存在。有什么理由吗?如果只是人们根本不在乎,是否有理由为什么我们不必在神经网络之外关心?


1
训练堆叠式自动编码器和2层神经网络有什么区别吗?
假设我正在编写一种用于构建2层堆叠式自动编码器和2层神经网络的算法。它们是一样的还是不同的? 我了解的是,当我构建一个堆叠式自动编码器时,我会逐层构建。对于神经网络,我将初始化网络中的所有参数,然后对于每个数据点,将其通过网络并计算损耗(例如,euclean距离)并进行反向传播。

2
如何实现2D中的空间缺失?
这参考了论文《使用卷积网络进行有效对象本地化》,据我了解,辍学是在2D中实现的。 从Keras阅读有关如何实现Spatial 2D Dropout的代码后,基本上实现了形状为[batch_size,1,1,num_channels]的随机二进制掩码。但是,此空间2D Dropout对形状为[batch_size,height,width,num_channels]的输入卷积块究竟做了什么? 我目前的猜测是,对于每个像素,如果像素的任何层/通道具有负值,则该一个像素的整个通道将默认为零。它是否正确? 但是,如果我的猜测是正确的,那么如何使用与原始输入块的尺寸完全相同的形状[batch_size,height,width,num_channels]的二进制掩码会产生通常的按元素丢弃(这是根据tensorflow的原始dropout实现将二进制掩码的形状设置为输入的形状)?因为这意味着如果conv块中的任何像素为负,则整个conv块将默认为0。这是我不太了解的令人困惑的部分。

3
为什么神经网络需要特征选择/工程设计?
尤其是在kaggle竞赛中,我注意到模型的性能完全取决于特征选择/工程。虽然我可以完全理解为什么在处理更传统/较旧的ML算法时会出现这种情况,但我不明白为什么在使用深度神经网络时会出现这种情况。 引用深度学习书: 深度学习通过引入以其他更简单的表示形式表示的表示形式,解决了表示学习中的这一核心问题。深度学习使计算机可以从更简单的概念中构建复杂的概念。 因此,我一直认为,如果“信息包含在数据中”,则在足够的训练时间下,足够深,参数齐全的神经网络将获得正确的特征。


2
什么是贝叶斯深度学习?
什么是贝叶斯深度学习,它与传统贝叶斯统计数据和传统深度学习有何关系? 涉及的主要概念和数学是什么?我可以说这只是非参数贝叶斯统计吗?它的开创性工作以及当前的主要发展和应用是什么? PS:贝叶斯深度学习受到了很多关注,请参阅NIPS研讨会。

1
为什么深度强化学习不稳定?
在DeepMind于2015年发表的有关深度强化学习的论文中指出,“由于不稳定的学习,将RL与神经网络结合的先前尝试在很大程度上失败了”。然后,论文根据观察结果之间的相关性列出了造成这种情况的一些原因。 请有人可以解释一下这是什么意思吗?这是一种过度拟合的形式吗,神经网络学习了训练中存在但测试中可能没有的某种结构?还是意味着其他? 可以找到该文件:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html 我想了解的部分是: 当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数时,强化学习不稳定或发散。这种不稳定性有多种原因:观察序列中存在相关性,对Q的小更新可能会显着更改策略并因此更改数据分布的事实,以及作用值与目标值之间的相关性。 我们使用一种新颖的Q学习方法解决了这些不稳定性,该方法使用了两个关键思想。首先,我们使用一种称为经验重播的受生物学启发的机制来对数据进行随机化,从而消除观察序列中的相关性,并平滑数据分布中的变化。其次,我们使用了迭代更新,将操作值(Q)调整为仅定期更新的目标值,从而减少了与目标的相关性。

2
为什么神经网络容易被愚弄?
我已经阅读了一些有关手动构造图像以“愚弄”神经网络的文章(见下文)。 这是因为网络仅对条件概率建模吗? 如果网络可以对联合概率进行建模,是否还会发生这种情况?p (y ,x )p (ÿ| X)p(ÿ|X)p(y|x)p (ÿ,x )p(ÿ,X)p(y,x) 我的猜测是,这种人工生成的图像与训练数据不同,因此它们具有低概率。因此即使对于这些图像来说可以很高,应该低。p (y ,x )p (y | x )p(X)p(X)p(x)p (ÿ,x )p(ÿ,X)p(y,x)p (ÿ| X)p(ÿ|X)p(y|x) 更新资料 我尝试了一些生成模型,结果证明它没有帮助,所以我想这可能是MLE的结果吗? 我的意思是在的情况下KL散度被用作损失函数,值其中很小不影响损失。因此,对于一个人为的图像不匹配,的值可以是任意的。p d 一吨一个(X )p d 一吨一个 p θpθ(x )pθ(X)p_{\theta}(x)pd一个牛逼一(x )pd一种Ť一种(X)p_{data}(x)pd一个牛逼一pd一种Ť一种p_{data}pθpθp_{\theta} 更新资料 我发现Andrej Karpathy撰写的博客显示 这些结果并非特定于图像,卷积网络,也不是深度学习中的“缺陷”。 解释和利用对抗性示例容易欺骗深层神经网络:无法识别图像的高置信度预测


1
深度卷积神经网络有哪些有用的数据增强技术?
背景: 在看到Geoffrey Hinton的精彩演讲后,我最近更深入地了解了在训练卷积神经网络时数据增强的重要性。 他解释说,当代的卷积神经网络无法概括被测对象的参照系,这使得网络很难真正地理解对象的镜像是相同的。 已经进行了一些研究来尝试对此进行补救。这是许多例子之一。我认为这有助于确定当今训练卷积神经网络时关键数据的增长程度。 数据增强技术很少相互对照。因此: 问题: 从业人员在哪些论文中报告其表现特别出色? 您发现有用的一些数据增强技术是什么?

1
防止在小数据集上过拟合LSTM
我正在对15000条推文进行建模,以使用具有128个隐藏单元的单层LSTM(使用类似于word2vec的表示形式,具有80个维度)来进行情感预测。1个纪元后,我获得了下降精度(38%,随机= 20%)。随着训练准确性的提高,更多的训练使验证准确性开始下降-这是过度拟合的明显标志。 因此,我正在考虑进行正则化的方法。我不希望减少隐藏单元的数量(128个似乎已经有点低了)。我目前以50%的概率使用辍学率,但这可能会增加。优化器是Adam,具有Keras的默认参数(http://keras.io/optimizers/#adam)。 有什么有效的方法可以减少我的数据集对此模型的过度拟合?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.