Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

2
在应用中使用脉冲神经网络的方式是什么?
脉冲或尖峰神经网络包含更多生物神经元的膜动力学,其中脉冲将信息传送到下一层。例如,神经元不必像在反向传播器中那样同时全部“发射”。 但是,对于将这些模型用于机器学习问题似乎存在障碍。机器学习从业人员使用更生物学的模型会遇到哪些具体问题?

1
如何有效地执行神经网络建模?
观察数与变量数之比应为多少?如何在神经网络模型中检测过度拟合,以及避免过度拟合的方法是什么?如果我想使用神经网络进行分类,那么班级应该有相等的频率吗?请帮帮我。

2
为什么带有LSTM单位的RNN也会遭受“爆炸梯度”的困扰?
我对RNN(尤其是LSTM单元)的工作方式有基本的了解。我对LSTM单元的体系结构有一个构想,即一个单元和几个门,它们调节值的流动。 但是,显然,我还没有完全理解LSTM如何解决“消失梯度和爆炸梯度”问题,该问题是在训练中使用常规RNN通过时间进行反向传播而发生的。我没有机会阅读论文以完全理解数学。 该答案简要说明了具有LSTM单位的RNN如何解决“消失梯度”问题。从数学上讲,原因似乎是不存在的导数不存在,即不趋于零。因此,作者指出:“至少存在一条不消失梯度的路径”。恕我直言,这种解释有点含糊。 同时,我正在阅读论文《使用神经网络进行序列学习》(作者:Ilya Sutskever,Oriol Vinyals,Quoc V. Le),在该论文的“ 3.4培训细节”部分中有说明 尽管LSTM往往不会遭受梯度消失的困扰,但它们可能会出现爆炸梯度。 我一直认为,带有LSTM单元的RNN可以解决“消失”和“爆炸梯度”的问题,但是,显然,带有LSTM单元的RNN也会遭受“爆炸梯度”的困扰。 凭直觉,为什么?从数学上讲,原因是什么?


3
人工神经网络背后的理论结果
我刚刚在Coursera的机器学习课程中介绍了人工神经网络,我想了解它们背​​后的更多理论。我发现他们模仿生物学的动机有些不尽人意。 从表面上看,似乎在每个级别上我们都用线性组合替换了协变量。通过反复执行,我们可以进行非线性模型拟合。这就引出了一个问题:为什么有时有时只用神经网络来拟合非线性模型就更好了。 更笼统地说,我想知道人工神经网络如何适合贝叶斯推理框架,这在ET Jaynes的书“概率论:科学逻辑”中有详细描述。或者,简单地说,为什么人工神经网络工作时会起作用?并且,当然,他们做出成功的预测意味着他们遵循了上述框架。

3
受限制的玻尔兹曼机回归?
我正在跟我先前在RBM上提出的问题进行跟进。我看到很多描述它们的文献,但是没有一篇真正地谈到回归(甚至没有带有标记数据的分类)。我感觉它仅用于未标记的数据。是否有处理回归的资源?还是像在隐藏层之上添加另一层并上下运行CD算法那样简单?在此先感谢。

2
为什么在神经网络中使用派生特征?
例如,一个人想要预测房屋价格,并具有房屋的长度和宽度两个输入特征。有时,还包括“派生”多项式输入特征,例如面积,即长*宽。 1)包含派生要素的意义是什么?在训练过程中,神经网络是否应该学习长度,宽度和价格之间的联系?为什么第三个要素(区域)不是多余的? 另外,有时我还看到人们在输入要素上运行遗传选择算法以减少数量。 2)如果所有输入功能都包含有用的信息,减少它们的意义是什么?神经网络是否应该根据其重要性为每个输入特征分配适当的权重?运行遗传选择算法的重点是什么?


1
反向传播如何在暹罗神经网络中工作?
我一直在研究Yann LeCun和他的同事在1994年提出的用于识别签名的暹罗神经网络的体系结构(“使用暹罗时延神经网络的签名验证” .pdf,NIPS 1994) 我了解了这种体系结构的总体思路,但是我真的无法理解这种情况下反向传播的工作原理。我无法理解神经网络的目标值是什么,这将允许反向传播正确设置每个神经元的权重。 在这种体系结构中,该算法计算两个神经网络的最终表示之间的余弦相似度。论文指出:“当给出真正的签名时,所需的输出是两个子网(f1和f2)的输出之间的小角度。 ,并且如果签名之一是伪造,则大角度书写”。 我真的不明白他们如何使用二进制函数(两个向量之间的余弦相似度)作为目标来进行反向传播。 在暹罗神经网络中如何计算反向传播?



2
带有嘈杂标签的分类?
我正在尝试训练神经网络进行分类,但是我拥有的标签比较吵(大约30%的标签是错误的)。 交叉熵损失确实有效,但是我想知道在这种情况下是否有其他方法更有效?还是交叉熵损失最优? 我不确定,但是我正在考虑某种程度地“减少”交叉熵损失,这样一个数据点的损失将不大于某个上限,这行得通吗? 谢谢! 更新 根据卢卡斯的答案,我得到了预测输出和softmax函数z的输入的导数。所以我想基本上是在增加一个平滑项3ÿyyžzz为导数。p我=0.3/Ñ+0.7Ŷ我升=-Σ吨我登录(p我)∂升37 N37N\frac{3}{7N} p一世= 0.3 /牛+ 0.7 ÿ一世pi=0.3/N+0.7yip_i=0.3/N+0.7y_i l = − ∑ t一世日志(p一世)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂升∂升∂ÿ一世= - 吨一世∂日志(p一世)∂p一世∂p一世∂ÿ一世= - 0.7 吨一世p一世= - 吨一世37 N+ y一世∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} 衍生物为原交叉熵损失: ∂升∂升∂ž一世= 0.7 ∑ĴŤĴpĴ∂ÿĴ∂ž一世= y一世∑ĴŤĴÿĴ37 N+ yĴ- Ť一世ÿ一世37 N+ y一世∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i} ∂升∂升∂ÿ一世= - 吨一世ÿ一世∂l∂yi=−tiyi\frac{\partial …


5
是否有用于设计和应用神经网络/深度学习的可视工具?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 10个月前关闭。 我知道有很多用于机器学习和深度学习的库,例如caffe,Theano,TensorFlow,keras等。但是对我来说,我似乎必须了解我想使用的神经网络的体系结构。 是否有一个(可视的)工具可以试验不同的网络设计并将其应用于自己的数据? 我正在考虑使用TensorFlow Playground之类的东西,但是具有n维数据和不同的图层类型。 提前致谢!

1
反向传播的矩阵形式与批量归一化
批归一化已被认为可在深度神经网络中显着提高性能。互联网上的大量资料显示了如何在逐个激活的基础上实施它。我已经使用矩阵代数实现了backprop,并且考虑到我正在使用高级语言(同时依赖Rcpp(最终是GPU的)密集矩阵乘法),将所有内容剔除并采用for-loops可能会使我的代码变慢除了遭受巨大的痛苦之外 批处理归一化函数为 其中b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta pxpxpx_p是激活之前的个节点ppp βγγ\gamma和是标量参数ββ\beta σ X p X pμxpμxp\mu_{x_p}和是均值和SD的。(请注意,通常使用方差的平方根加上一个模糊系数-假设非零元素为紧凑起见)σxpσxp\sigma_{x_p}xpxpx_p 以矩阵形式,整个层的批量归一化将为 其中b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) XX\mathbf{X}是N×pN×pN\times p 1N1N\mathbf{1}_N是1的列向量 β pγγ\gamma和现在是每层归一化参数的行向量ββ\betappp σ X Ñ × p ÑμXμX\mu_{\mathbf{X}}和是矩阵,其中每一列都是列均值和标准差的向量σXσX\sigma_{\mathbf{X}}N×pN×pN \times pNNN ⊙⊗⊗\otimes是Kronecker产品,是elementwise(Hadamard)产品⊙⊙\odot ,这是一个非常简单的没有批次归一化且连续结果的单层神经网络 y=a(XΓ1)Γ2+ϵy=a(XΓ1)Γ2+ϵ y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.