Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。

5
当我的神经网络不学习时该怎么办?
我正在训练一个神经网络,但是训练的损失并没有减少。我怎样才能解决这个问题? 我不是在问过度拟合或正则化。我问的是如何解决训练集上我的网络性能无法提高的问题。 这个问题是有意提出的,因此关于如何训练神经网络的其他问题可以作为该问题的副本来解决,其态度是:“如果给一个人一条鱼,你就可以给他喂一天,但是如果你教一个人,人钓鱼,你可以在他的余生中养活他。” 请参阅此Meta线程进行讨论:回答“我的神经网络不起作用,请解决”问题的最佳方法是什么? 如果您的神经网络不能很好地泛化,请参阅:当我的神经网络不能很好地泛化时,我该怎么办?



10
神经网络和深度神经网络之间有什么区别,为什么深度神经网络工作得更好?
我还没有看到用这些术语准确说明的问题,这就是为什么我要提出一个新问题。 我感兴趣的不是神经网络的定义,而是了解深度神经网络的实际区别。 有关更多上下文:我知道什么是神经网络以及反向传播如何工作。我知道DNN必须具有多个隐藏层。但是,十年前,我在课堂上了解到,就神经网络能够表示的功能而言,具有多层或一层(不计算输入和输出层)是等效的(请参见Cybenko的通用逼近定理),并且更多的层使分析变得更加复杂而又不提高性能。显然,情况已不再如此。 我猜想可能是错误的,区别在于训练算法和属性,而不是结构,因此,如果答案能强调使DNN成为可能的原因(例如数学证明或随机玩网络),我将不胜感激。?)和期望(收敛例如,速度?)


4
为什么在深度学习中通过减去数据集的图像均值而不是当前图像均值来规范化图像?
关于如何规范化图像有一些变体,但大多数似乎使用以下两种方法: 减去在所有图像上计算出的每个通道的平均值(例如 VGG_ILSVRC_16_layers) 通过对所有图像计算的像素/通道相减(例如CNN_S,另请参见Caffe的参考网络) 在我看来,自然的方法是将每个图像标准化。在宽广的日光下拍摄的图像比夜间拍摄的图像会引起更多的神经元放电,虽然它可以告诉我们时间,但我们通常关心的是边缘等处出现的更有趣的特征。 Pierre Sermanet在3.3.3中指出,局部对比度归一化将基于每个图像,但是我在所见过的任何示例/教程中都没有遇到过。我也看到了一个有趣的Quora问题和WeiXu-Shen Wei的帖子,但是他们似乎并不支持上述两种方法。 我到底在想什么?这是颜色归一化问题还是有一篇论文可以真正解释为什么这么多人使用这种方法?

4
为什么神经网络变得更深而不是更广泛?
近年来,卷积神经网络(或一般来说可能是深层神经网络)变得越来越深,最先进的网络从7层(AlexNet)到1000层(Residual Nets)在4的空间中年份。深度网络提高性能的原因在于,可以学习更复杂的非线性函数。如果有足够的训练数据,这将使网络更容易区分不同的类别。 但是,趋势似乎并没有随着每一层中参数的数量而变化。例如,尽管层数增加了很多,但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同,并且大小仍然相对较小。但是从我的直觉来看,似乎增加每层参数的数量将使每一层都有更丰富的数据源,从中可以学习其非线性函数;但是这个想法似乎已经被忽略了,只支持简单地增加更多的层,每个层都有少量的参数。 因此,尽管网络已变得“更深”,但它们并没有变得“更广泛”。为什么是这样?

3
为什么神经网络研究人员关心时代?
随机梯度下降的时期被定义为对数据的单次通过。对于每个SGD微型批次,将绘制样本,计算梯度并更新参数。在时代设置中,样本被抽取而无需替换。kkk 但这似乎没有必要。为什么不从每个迭代的整个数据集中随机抽取绘制每个SGD minibatch ?在大量的时期中,或多或少经常看到样本的微小偏差似乎并不重要。kkk


8
用于深度学习的R库
我想知道是否有用于深度学习神经网络的良好R库?我知道还有的nnet,neuralnet以及RSNNS,但没有这些似乎实现深度学习方法。 我对无监督学习,然后进行有监督学习,以及使用辍学防止共同适应特别感兴趣。 / edit:几年后,我发现h20深度学习软件包设计精良且易于安装。我也喜欢mxnet软件包,该软件包安装起来有点困难,但支持像covnets这样的东西,可以在GPU上运行,而且速度非常快。

5
使用深度学习进行时间序列预测
我是深度学习领域的新手,对我来说,第一步是从deeplearning.net网站阅读有趣的文章。在有关深度学习的论文中,Hinton等人大多谈论将其应用于图像问题。有人可以回答我吗?它可以应用于预测时间序列值(财务,互联网流量等)的问题吗?如果可以的话,我应该重点关注哪些重要事项?

5
具有指数衰减的Adam优化器
在大多数Tensorflow代码中,我已经看到Adam Optimizer的学习率恒定1e-4(即0.0001)。该代码通常如下所示: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually intialize the variables sess.run(init_op) # now …

3
递归与递归神经网络:哪个对NLP更好?
有递归神经网络和递归神经网络。两者通常用相同的缩写词表示:RNN。根据Wikipedia的说法,递归NN实际上是递归NN,但我并不真正理解这种解释。 而且,我似乎没有发现哪个(对于示例而言)对自然语言处理更好。事实是,尽管Socher在其教程中将递归NN用于NLP ,但我找不到递归神经网络的良好实现,并且当我在Google中进行搜索时,大多数答案都与递归NN有关。 除此之外,还有其他DNN更适合NLP还是取决于NLP任务?信仰网还是堆叠式自动编码器?(我似乎没有在NLP中为ConvNets找到任何特定的util,并且大多数实现都考虑到了机器视觉)。 最后,我真的更喜欢C ++(如果支持GPU,则更好)或Scala(如果支持Spark,则更好)的DNN实现,而不是Python或Matlab / Octave。 我已经尝试过Deeplearning4j,但是它正在不断开发中,文档有些过时了,我似乎无法使其正常工作。太糟糕了,因为它具有类似于“黑匣子”的处理方式,非常类似于scikit-learn或Weka,这正是我真正想要的。

2
为什么卷积神经网络不使用支持向量机进行分类?
近年来,卷积神经网络(CNN)已成为计算机视觉中对象识别的最新技术。通常,CNN由几个卷积层组成,然后是两个完全连接的层。这背后的一种直觉是,卷积层学习输入数据的更好表示,然后全连接层学习根据一组标签对这种表示进行分类。 但是,在CNN开始占主导地位之前,支持向量机(SVM)是最新技术。所以说SVM仍然比两层全连接神经网络更强大的分类器似乎是明智的。因此,我想知道为什么最新的CNN倾向于使用完全连接的层进行分类,而不是使用SVM?这样,您将两全其美:强大的要素表示和强大的分类器,而不是强大的要素表示,但只有弱分类器... 有任何想法吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.