Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

3
神经网络中的Softmax层
我试图将softmax层添加到经过反向传播训练的神经网络中,所以我试图计算其梯度。 softmax输出为其中,j是输出神经元数。HĴ= ežĴ∑ ež一世hj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}Ĵjj 如果我得到它,那么我得到 ∂HĴ∂žĴ= 小时Ĵ(1 - ħĴ)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) 与逻辑回归相似。但是,这是错误的,因为我的数值梯度检查失败。 我究竟做错了什么?我有一个想法,我需要计算交叉衍生物以及(即),但我不知道如何做到这一点,并保持梯度相同的尺寸,因此将适合的反向传播过程。∂HĴ∂žķ∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}


1
神经网络:体重变化动量和体重衰减
动量用于减少连续迭代中权重变化的波动:αα\alpha È(瓦特)瓦特ηΔωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 其中是误差函数, -权重向量,学习率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量衰减会影响重量变化:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 问题是,在反向传播过程中将这两种技巧结合在一起是否有意义,并且会产生什么效果? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

4
为什么要使用S型函数而不是其他函数?
为什么事实上的标准S形函数在(非深度)神经网络和逻辑回归中如此流行?1个1 + e− x1个1个+Ë-X\frac{1}{1+e^{-x}} 我们为什么不使用许多其他可导函数,它们的计算时间更快或更慢的衰减(因此消失的梯度发生得更少)。维基百科上关于Sigmoid函数的例子很少。是我最喜欢的具有缓慢衰减和快速计算的功能。X1 + | x |X1个+|X|\frac{x}{1+|x|} 编辑 这个问题与具有优点/缺点的神经网络中激活函数的综合列表不同,因为我只对“为什么”感兴趣,而对乙状结肠不感兴趣。

3
隐马尔可夫模型和神经网络之间有什么区别?
我只是想弄清楚统计数字,所以对不起这个问题,我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态(不正当赌场,掷骰子等)和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态,我们试图使用观察来弄清楚。 据我了解,它们都可以预测隐藏状态,所以我想知道何时在神经网络上使用马尔可夫模型?它们只是解决类似问题的不同方法吗? (我对学习感兴趣,但是我也有另一个动机,我有一个问题,我正在尝试使用隐藏的马尔可夫模型来解决,但是这使我大吃一惊,所以我很想知道是否可以改用其他东西。)

4
直线激活函数如何解决神经网络中消失的梯度问题?
我发现整流线性单位(ReLU)在许多地方被赞誉为神经网络消失梯度问题的一种解决方案。即,使用max(0,x)作为激活函数。当激活为正时,很明显它比S型激活函数好,因为它的推导始终为1,而不是大x的任意小值。另一方面,当x小于0时,导数恰好为0。在最坏的情况下,当一个单位从未被激活时,该单位的权重也将不再变化,并且该单位将永远无用-这似乎甚至比消失得很小的渐变还要差。学习算法在使用ReLU时如何处理该问题?

7
神经网络中的数据标准化和标准化
我正在尝试使用神经网络(ANN)预测复杂系统的结果。结果(相关)值的范围在0到10,000之间。不同的输入变量具有不同的范围。所有变量都具有大致正态分布。 我考虑在训练之前缩放数据的其他选项。一种选择是通过使用每个变量的均值和标准偏差值独立地计算累积分布函数,将输入(独立)变量和输出(独立)变量缩放为[0,1] 。这种方法的问题在于,如果我在输出端使用S形激活函数,则极有可能会错过极端数据,尤其是那些在训练集中看不到的数据 另一种选择是使用z得分。在那种情况下,我没有极端的数据问题。但是,我仅限于输出的线性激活函数。 ANN还在使用哪些其他公认的规范化技术?我试图寻找有关此主题的评论,但未找到任何有用的信息。

2
ImageNet:什么是top-1和top-5错误率?
在ImageNet分类论文中,top-1和top-5错误率是衡量某些解决方案成功与否的重要单位,但是这些错误率是多少? 在Krizhevsky等人的《具有深度卷积神经网络的ImageNet分类 》中。每个基于一个CNN的解决方案(第7页)都没有前5个错误率,而具有5个和7个CNN的解决方案则有5个错误率(而且7个CNN的错误率比5个CNN的更好)。 这是否意味着top-1错误率是一个CNN的最佳单一错误率? 前五位的错误率仅仅是五个CNN的累积错误率吗?

5
如何可视化/理解神经网络在做什么?
神经网络由于其复杂的结构而经常被视为“黑匣子”。这不是理想的,因为直观了解模型在内部的工作方式通常是有益的。可视化受过训练的神经网络如何工作的方法有哪些?或者,我们如何提取容易消化的网络描述(例如,该隐藏节点主要用于这些输入)? 我主要对两层前馈网络感兴趣,但也想听听针对更深层网络的解决方案。输入数据本质上可以是可视的或非可视的。

7
为什么不进行正则化解决深度神经网络对数据的渴望?
我通常在神经网络(尤其是深度神经网络)的环境中经常遇到的一个问题是,它们“渴望数据”-也就是说,除非我们拥有大量数据集,否则它们的性能将不佳用来训练网络。 我的理解是,这是由于NNet(尤其是Deep NNet)具有许多自由度的事实。因此,作为一个模型,NNet具有大量参数,并且如果模型的参数数量相对于训练数据点的数量很大,则存在过拟合的趋势。 但是,为什么不能通过正则化解决此问题?据我所知,NNets可以使用L1和L2正则化,也有自己的正则化方法(例如dropout),可以减少网络中的参数数量。 我们是否可以选择我们的正则化方法以使它们强制简约并限制网络的大小? 为了阐明我的想法:假设我们使用大型Deep NNet来尝试对数据建模,但是数据集很小,实际上可以通过线性模型建模。那么为什么网络权重不会以一种神经元模拟线性回归而所有其他神经元收敛为零的方式收敛呢?为什么正则化对此没有帮助?


4
当我的神经网络不能很好地泛化时该怎么办?
我正在训练一个神经网络,训练损失减少了,但是验证损失却没有,或者减少的程度比我预期的要少,这是基于具有非常相似的体系结构和数据的参考或实验得出的。我怎样才能解决这个问题? 至于问题 当我的神经网络不学习时该怎么办? 受此问题启发,该问题被故意保留为通用,以便可以将其他有关如何将神经网络的泛化误差降低到已证明可达到的水平的问题作为该问题的副本来解决。 另请参阅有关Meta的专用线程: 是否存在一个通用问题,我们可以将以下类型的问题重定向到“为什么我的神经网络不能很好地泛化?”

3
机器学习:我应该使用分类交叉熵还是二进制交叉熵损失进行二进制预测?
首先,我意识到如果需要执行二进制预测,则必须通过执行一次热编码来创建至少两个类。它是否正确?但是,二元互熵是否仅适用于只有一个类别的预测?如果我使用大多数图书馆(例如TensorFlow)中常见的分类交叉熵损失,会不会有明显的不同? 实际上,分类交叉熵和二进制交叉熵之间的确切区别是什么?我从未在TensorFlow中看到过二进制交叉熵的实现,所以我认为也许绝对分类的效果同样好。

5
神经网络的成本函数是非凸的吗?
神经网络的成本函数为,据称它是非凸的。我不太明白为什么会这样,因为我发现它与逻辑回归的成本函数非常相似,对吗?Ĵ( W,b )Ĵ(w ^,b)J(W,b) 如果是非凸的,因此二阶导数∂Ĵ∂w ^&lt; 0∂Ĵ∂w ^&lt;0\frac{\partial J}{\partial W} < 0,是吗? 更新 感谢下面的答案以及@gung的评论,我明白了,如果根本没有隐藏的图层,它就是凸的,就像逻辑回归一样。但是,如果存在隐藏层,则通过置换隐藏层中的节点以及后续连接中的权重,我们可以对导致相同损失的权重采用多种解决方案。 现在有更多问题, 1)有多个局部最小值,其中一些应该具有相同的值,因为它们与某些节点和权重置换相对应,对吗? 2)如果根本不会置换节点和权重,那么它是凸的,对吗?最小值将是全局最小值。如果是这样,则1)的答案是,所有这些局部最小值将具有相同的值,对吗?

4
LSTM如何防止消失的梯度问题?
LSTM是专门为避免梯度消失而发明的。可以假设使用恒定误差旋转木马(CEC)来做到这一点,在下图中(来自Greff等人)对应于细胞周围的回路。 (来源:deeplearning4j.org) 而且我知道该部分可以看作是一种身份函数,因此导数为1,并且梯度保持恒定。 我不明白的是它不会因其他激活功能而消失吗?输入,输出和忘记门使用S形,其导数最大为0.25,而g和h传统上为tanh。反向传播如何使梯度不消失?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.