Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

2
残留网络是否与梯度提升相关?
最近,我们看到了残差神经网络的出现,其中,每个层都由一个计算模块和一个快捷连接组成,该连接保留了该层的输入,例如第i层的输出,表现为: 该网络允许提取残差特征并允许更深的深度,同时对消失的梯度问题更鲁棒,从而实现了最先进的性能。cicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 深入研究了梯度提升,这是机器学习领域中一种非常强大的集成技术,它似乎也对损失的残差执行了一种梯度优化形式,很难不看到某种形式的相似性。 我知道它们相似但不相同 -我注意到的一个主要区别是,梯度增强对加法项进行了优化,而残差网络优化了整个网络。 我没有看到He等人在他们的原始论文中注意到这是他们动机的一部分。因此,我想知道您对此主题有何见解,并要求您共享自己拥有的有趣资源。 谢谢。

1
为什么必须谨慎进行批标准化的示例有什么解释?
我正在阅读批处理规范化论文 [1],其中有一个小节通过一个示例,试图说明为什么必须仔细进行规范化。老实说,我无法理解该示例的工作原理,并且我真的很好奇能够尽可能多地了解它们。首先让我在这里引用一下: 例如,考虑一个带有输入u的层,该层添加了学习的偏差b,并通过减去对训练数据计算的激活平均值来对结果进行归一化:其中 是训练集上的值的集合,。如果梯度下降步骤忽略了对的依赖性,则它将更新,其中。然后,。因此,更新到的组合X=Ü+b,X={X1。。。Ñ}Xë[X]=Σ Ñ 我= 1 X我ë[X]bb←b+Δ>bΔbα-∂升X^= x − E[ x ]x^=x−E[x]\hat{x} = x − E[x]x = u + b ,X= { x1个。。。ñ}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}XxxË[ x ] = ∑ñ我= 1X一世E[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iË[ x ]E[x] E[x] bbbb ← b + Δ > bb←b+Δ>bb ← b + \Delta > …

4
神经网络-权重的含义
我正在使用前馈NN。我理解这个概念,但是我的问题是关于重量的。您如何解释它们,即它们代表什么或如何使其不受破坏(仅基于函数系数)?我发现了一种叫做“权重空间”的东西,但是我不太确定这意味着什么。

1
以神经网络为函数逼近的Q学习
我正在尝试使用神经网络来估计Q学习中的Q值,如有关使用神经网络进行Q学习的问题中所述。正如第一个答案中所建议的那样,我在输出层使用线性激活函数,而在隐藏层中仍使用S形激活函数(2,尽管稍后可以更改)。我还使用了单个NN,它根据建议为每个动作返回输出。Q(a)Q(a)Q(a) 但是,对于简单的车杆平衡问题,该算法仍存在分歧。所以,我担心我的Q更新是错误的。初始化之后,我在每个步骤中所做的工作如下: 使用NN对所有动作的前向传播计算。Qt(st)Qt(st)Q_t(s_t) 选择一个新动作,处于新状态。小号ŧatata_tststs_t 使用NN对所有动作的前向传播计算。Qt(st+1)Qt(st+1)Q_t(s_{t+1}) 将目标Q值设置为: 仅针对当前动作a_t,同时为其他状态设置Q_ {t + 1}(s,a_t)= Q_ {t}(s,a_t)。注意,我认为这是问题所在。一吨Q 吨+ 1(小号Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+\alpha_t \left[r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t(s_t,a_t) \right]atata_t问t + 1(小号,一Ť)= QŤ(小号,一Ť)Qt+1(s,at)=Qt(s,at)Q_{t+1}(s,a_t)=Q_{t}(s,a_t) 将误差向量设置为e = QŤ 一个ř 克ë 吨- QŤ= Qt + 1- QŤË=问Ť一种[RGËŤ-问Ť=问Ť+1个-问Ť\mathbf{e}=Q_\mathrm{target}-Q_t=Q_{t+1}-Q_t 通过NN向后传播误差,以更新权重矩阵。 有人可以向我指出我哪里出问题了吗? 此外,您认为我应该在输入层和第一个隐藏层中也包含一个偏差项吗(例如,对于S型函数)?会有所作为吗? 预先非常感谢您的帮助。如果需要,我可以帮助您澄清问题或共享代码。

3
Word2Vec的跳过语法模型如何生成输出向量?
我在理解Word2Vec算法的跳过语法模型时遇到问题。 在连续词袋中,很容易看到上下文词如何在神经网络中“拟合”,因为您基本上是在将每个一次性编码表示形式与输入矩阵W相乘后对它们进行平均。 但是,在skip-gram的情况下,您只能通过将一热点编码与输入矩阵相乘来获得输入词向量,然后假设通过将上下文词乘以C(=窗口大小)来表示上下文词输入矢量表示,输出矩阵为W'。 我的意思是说,词汇量为,编码为,输入矩阵,作为输出矩阵。给定单词具有一词热编码和上下文单词和(具有热代表和),如果将乘以输入矩阵,则得到,现在如何从中生成得分矢量?Ñ w ^ ∈ [R V × Ñ W¯¯ ' ∈ [R Ñ × V瓦特我X 我瓦特Ĵ 瓦特ħ X Ĵ X ħ X 我 W¯¯ ħ:= X Ť 我 W¯¯ = w ^ (我,⋅ ) ∈ [R Ñ ÇVVVNNNW∈RV×NW∈RV×NW \in \mathbb{R}^{V\times N}W′∈RN×VW′∈RN×VW' \in \mathbb{R}^{N\times V}wiwiw_ixixix_iwjwjw_jwhwhw_hxjxjx_jxhxhx_hxixix_iWWWh:=xTiW=W(i,⋅)∈RNh:=xiTW=W(i,⋅)∈RN{\bf h} := x_i^TW …

2
使用部分“未知”数据进行分类
假设我想学习一个分类器,该分类器将数字向量作为输入,并给类标签作为输出。我的训练数据由大量输入输出对组成。 但是,当我要测试一些新数据时,该数据通常仅部分完成。例如,如果输入向量的长度为100,则可能仅给30个元素提供值,其余的为“未知”。 例如,考虑在已知图像部分被遮挡的情况下进行图像识别。或考虑已知部分数据已损坏的一般意义上的分类。在所有情况下,我都确切知道数据向量中的哪些元素是未知部分。 我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但是鉴于已知元素通常比已知元素更多,所以这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整的数据进行训练,但这可能需要详尽地采样已知和未知元素的所有组合。 我特别在考虑神经网络,但是我对其他分类器持开放态度。 有任何想法吗?谢谢!

1
R神经网络-计算给出恒定答案
我正在尝试使用R的neuralnet软件包(此处的文档)进行预测。 这是我想做的: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

5
神经网络的数学背景
不知道这是否适合本网站,但是我正在开始我的计算机科学硕士学位(应用数学学士学位),并希望拥有强大的机器学习背景(我很可能会攻读博士学位)。我的次级兴趣之一是神经网络。 人工神经网络的良好数学背景是什么?像在机器学习的其他领域一样,我认为线性代数很重要,但是数学的其他哪些领域也很重要? 我计划阅读《神经网络:系统介绍或用于模式识别的神经网络》。是否有人提出任何建议或替代建议?

4
可以通过删除一些连接来获得更好的ANN?
我想知道在某些情况下,如果您修剪掉一些与它们之间的联系,ANN是否有可能表现得更好? 通过并行获取两个多层ANN A和B(相同的输入和输出节点)来构造一个ANN,在A和B的隐藏层之间添加一些“通信”连接? 能否获得更好的泛化结果? 这是在实践中以某种方式使用的,还是总是只使用多层的全连接网络?


2
长短期记忆(LSTM)递归神经网络背后的直觉是什么?
循环神经网络(RNN)背后的想法对我很清楚。我以以下方式理解它:我们有一系列观察()(或换句话说,多元时间序列)。每个单个观测是一个维数值向量。在RNN模型中,我们假定下一个观测值是先前观测值以及先前的“隐藏状态”,其中隐藏状态也由数字表示向量(观察状态和隐藏状态的尺寸可以不同)。还假定隐藏状态本身取决于先前的观察和隐藏状态:o⃗ 1,o⃗ 2,…,o⃗ nØ→1个,Ø→2,…,Ø→ñ\vec o_1, \vec o_2, \dots, \vec o_no⃗ iØ→一世\vec o_iNñNo⃗ i+1Ø→一世+1个\vec o_{i+1}o⃗ iØ→一世\vec o_{i}h⃗ iH→一世\vec h_i Ø⃗ 一世,小时⃗ 一世= F(o⃗ i − 1,小时⃗ i − 1)Ø→一世,H→一世=F(Ø→一世-1个,H→一世-1个)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最后,在RNN模型中,函数FFF被假定为神经网络。我们使用可用数据(观察序列)训练(拟合)神经网络。我们训练的目标是能够使用先前的观察结果尽可能准确地预测下一个观察结果。 现在,LSTM网络是对RNN网络的修改。据我了解,LSTM背后的动机是解决RNN特有的短存储问题(常规RNN在相关事件之间存在时间间隔过长的问题)。 我了解LSTM网络是如何工作的。这是我发现的LSTM的最佳解释。基本思想如下: 除了隐藏状态向量之外,我们还引入了一种所谓的“单元状态”向量,该向量具有与隐藏状态向量(C⃗ 一世C→一世\vec c_i)相同的大小(维数)。我认为引入了“细胞状态”向量来建模长期记忆。与常规RNN一样,LSTM网络将观察到的和隐藏的状态作为输入。使用此输入,我们可以通过以下方式计算新的“单元状态”: C⃗ 我+ 1= ω⃗ 1个(o⃗ 一世,小时⃗ 一世)⋅ …


2
如何通过反向传播训练SVM?
我想知道是否可以使用反向传播训练SVM(例如,将其简化为线性模型)? 目前,我处于障碍之中,因为我只能考虑将分类器的输出编写为 F(X ; θ ,b )= SGN (θ ·&X - (b + 1 ))= SGN (克(x ; θ ,b ))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) 因此,当我们尝试计算“向后传递”(传播错误)时,我们得到 因为的导数是 sgn(x)dsgn(x)∂Ë∂X= ∂Ë∂F(x ; θ ,b )∂F(x ; θ ,b )X= ∂Ë∂F(x ; θ ,b )∂SGN (克(x ; θ ,b ))∂G(x …

3
神经网络可以学习功能及其功能派生吗?
我了解到,在某些假设下(在网络和要近似的函数上),神经网络(NN)可以视为函数及其派生类的通用逼近器。实际上,我已经对简单但非平凡的函数(例如多项式)进行了许多测试,似乎我确实可以很好地近似它们和它们的一阶导数(下面显示一个示例)。 然而,我不清楚的是,导致上述结论的定理是否扩展到(或可能扩展到)泛函及其函数导数。例如,考虑以下函数: ,其中函数导数: 其中,完全而不是完全取决于。NN可以学习上面的映射及其功能派生吗?更具体地说,如果一个离散化的域比和提供(在离散点)作为输入和F[ f((x )] = ∫b一个dX ˚F (x )克(x )F[F(X)]=∫一个bdX F(X)G(X)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f(x )]δF(x )=g(x )δF[F(X)]δF(X)=G(X)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}F(x )F(X)f(x)G(x )G(X)g(x)XXx[ a ,b ][一个,b][a,b]F(x )F(X)f(x)F[ f(x )]F[F(X)]F[f(x)]作为输出,NN能否正确(至少在理论上)正确学习此映射?如果是这样,它还能学习映射的功能导数吗? 我已经做过许多测试,似乎NN确实可以在某种程度上学习映射。但是,虽然此映射的准确性尚可,但并不理想。麻烦的是计算出的函数导数是完全垃圾(尽管这两个都可能与训练等有关)。一个例子如下所示。F[ f(x )]F[F(X)]F[f(x)] 如果NN不适合学习某个函数及其函数导数,那么还有另一种机器学习方法吗? 例子: (1)以下是近似函数及其衍生物的一个例子:一个NN被训练学习函数在范围[-3,2]: 从该合理得到与近似值: 请注意,正如预期的那样,对的NN近似值及其一阶导数随训练点数,NN体系结构的改善而提高,因为在训练过程中发现了更好的最小值等。F(x )= x3+ x …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.