Questions tagged «neural-networks»

人工神经网络(ANN)是一类广泛的基于生物神经网络的计算模型。它们包括前馈NN(包括“深度” NN),卷积NN,递归NN等。

3
神经网络-二进制与离散/连续输入
是否有充分的理由选择二进制值(0/1)而不是离散或连续的规范化值(例如(1; 3))作为所有输入节点(带有或不带有反向传播)的前馈网络的输入? 当然,我只是在谈论可以转换为两种形式的输入。例如,当您拥有一个可以接受多个值的变量时,可以将它们作为一个输入节点的值直接输入,或者为每个离散值形成一个二进制节点。并假设所有输入节点的可能值范围都相同。有关这两种可能性的示例,请参见图片。 在研究此主题时,我找不到关于此的冷酷事实。在我看来,或多或少地,这最终总是“试错”。当然,每个离散输入值的二进制节点意味着更多的输入层节点(因此也意味着更多的隐藏层节点),但是与一个节点中具有相同值的情况相比,它确实会产生更好的输出分类,并且具有合适的阈值函数。隐藏层? 您是否同意这只是“尝试一下”,还是对此有其他意见?


3
为什么神经网络需要特征选择/工程设计?
尤其是在kaggle竞赛中,我注意到模型的性能完全取决于特征选择/工程。虽然我可以完全理解为什么在处理更传统/较旧的ML算法时会出现这种情况,但我不明白为什么在使用深度神经网络时会出现这种情况。 引用深度学习书: 深度学习通过引入以其他更简单的表示形式表示的表示形式,解决了表示学习中的这一核心问题。深度学习使计算机可以从更简单的概念中构建复杂的概念。 因此,我一直认为,如果“信息包含在数据中”,则在足够的训练时间下,足够深,参数齐全的神经网络将获得正确的特征。

1
瓶颈层在神经网络中意味着什么?
我正在阅读FaceNet论文,在导言的第3段中说: 基于深度网络的先前的面部识别方法使用在一组已知面部身份上训练的分类层,然后采用中间瓶颈层作为表示,用于对训练中使用的一组身份以外的识别进行概括。 我想知道中间瓶颈层是什么意思?


2
CNN Xavier权重初始化
在一些教程中,我发现有人说“ Xavier”权重初始化(论文:了解训练深度前馈神经网络的难度)是初始化神经网络权重的有效方法。 对于完全连接的层,这些教程中有一条经验法则: V一个[R (W ^)= 2ñ我ñ+ nØ ü Ť,更简单的选择:V一个[R (W ^)= 1ñ我ñV一种[R(w ^)=2ñ一世ñ+ñØüŤ,更简单的选择:V一种[R(w ^)=1个ñ一世ñVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} 其中是图层的权重方差,使用正态分布进行初始化,,是父图层和当前图层中神经元的数量。ñ 我ñ Ñ Ò ù 吨V一个[R (W ^)V一种[R(w ^)Var(W)ñ我ññ一世ñn_{in}ñØ ü ŤñØüŤn_{out} 卷积层有类似的经验法则吗? 我正在努力找出最适合初始化卷积层权重的方法。例如在权重形状为的层中(5, 5, 3, 8),即内核大小为5x5,过滤三个输入通道(RGB输入)并创建8特征图...是否将被3视为输入神经元的数量?或者说75 = 5*5*3,因为输入是5x5每个颜色通道的色标? 我既可以接受一个明确的问题答案,也可以接受一个更“通用”的答案,这可以解释找到正确的权重初始化并最好链接源的一般过程。


2
神经网络:一个热门变量压倒性连续吗?
我有大约20列(20个功能)的原始数据。其中有10个是连续数据,有10个是分类数据。某些分类数据可能具有50个不同的值(美国各州)。在我对数据进行预处理之后,连续的10列变成了10列准备好的列,而10个分类值变得像200个一键编码变量。我担心如果将所有这些200 + 10 = 210个特征都放入神经网络,那么200个热门特征(10个分类列)将完全占据10个连续特征。 也许一种方法是将列“分组”或类似的东西。这是一个有效的问题吗?有没有标准的方法可以解决这个问题? (尽管我认为这没什么大不了,但我正在使用Keras。)

1
为什么深度强化学习不稳定?
在DeepMind于2015年发表的有关深度强化学习的论文中指出,“由于不稳定的学习,将RL与神经网络结合的先前尝试在很大程度上失败了”。然后,论文根据观察结果之间的相关性列出了造成这种情况的一些原因。 请有人可以解释一下这是什么意思吗?这是一种过度拟合的形式吗,神经网络学习了训练中存在但测试中可能没有的某种结构?还是意味着其他? 可以找到该文件:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html 我想了解的部分是: 当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数时,强化学习不稳定或发散。这种不稳定性有多种原因:观察序列中存在相关性,对Q的小更新可能会显着更改策略并因此更改数据分布的事实,以及作用值与目标值之间的相关性。 我们使用一种新颖的Q学习方法解决了这些不稳定性,该方法使用了两个关键思想。首先,我们使用一种称为经验重播的受生物学启发的机制来对数据进行随机化,从而消除观察序列中的相关性,并平滑数据分布中的变化。其次,我们使用了迭代更新,将操作值(Q)调整为仅定期更新的目标值,从而减少了与目标的相关性。

2
为什么神经网络容易被愚弄?
我已经阅读了一些有关手动构造图像以“愚弄”神经网络的文章(见下文)。 这是因为网络仅对条件概率建模吗? 如果网络可以对联合概率进行建模,是否还会发生这种情况?p (y ,x )p (ÿ| X)p(ÿ|X)p(y|x)p (ÿ,x )p(ÿ,X)p(y,x) 我的猜测是,这种人工生成的图像与训练数据不同,因此它们具有低概率。因此即使对于这些图像来说可以很高,应该低。p (y ,x )p (y | x )p(X)p(X)p(x)p (ÿ,x )p(ÿ,X)p(y,x)p (ÿ| X)p(ÿ|X)p(y|x) 更新资料 我尝试了一些生成模型,结果证明它没有帮助,所以我想这可能是MLE的结果吗? 我的意思是在的情况下KL散度被用作损失函数,值其中很小不影响损失。因此,对于一个人为的图像不匹配,的值可以是任意的。p d 一吨一个(X )p d 一吨一个 p θpθ(x )pθ(X)p_{\theta}(x)pd一个牛逼一(x )pd一种Ť一种(X)p_{data}(x)pd一个牛逼一pd一种Ť一种p_{data}pθpθp_{\theta} 更新资料 我发现Andrej Karpathy撰写的博客显示 这些结果并非特定于图像,卷积网络,也不是深度学习中的“缺陷”。 解释和利用对抗性示例容易欺骗深层神经网络:无法识别图像的高置信度预测


2
截断正态分布在神经网络中初始化权重有什么好处?
在前馈神经网络中初始化连接权重时,重要的是随机初始化它们,以避免学习算法无法打破的任何对称性。 我在不同地方(例如TensorFlow的MNIST教程)中看到的建议是使用标准偏差为的截断正态分布,其中是输入的数量给定的神经元层。1个ñ--√1个ñ\dfrac{1}{\sqrt{N}}ññN 我相信标准偏差公式可确保反向传播的梯度不会很快溶解或放大。但是我不知道为什么我们要使用截断的正态分布而不是正态正态分布。是否要避免稀疏的异常权重?

1
如何训练深度网络的LSTM层
我正在使用lstm和前馈网络对文本进行分类。 我将文本转换为一键向量,然后将其输入到lstm中,这样我就可以将其总结为单个表示形式。然后,我将其馈送到另一个网络。 但是我如何训练LSTM?我只想按顺序对文本进行分类-是否应在未经培训的情况下进行输入?我只想将段落表示为单个项目,然后将其输入分类器的输入层。 我将不胜感激与此有关的任何建议! 更新: 所以我有一个lstm和一个分类器。我将lstm的所有输出并平均池化,然后将平均值输入分类器。 我的问题是我不知道如何训练lstm或分类器。我知道对于lstm的输入应该是什么,对于该输入的分类器的输出应该是什么。由于它们是两个单独的网络,它们只是按顺序激活的,因此我需要知道和不知道lstm的理想输出应该是什么,它也是分类器的输入。有没有办法做到这一点?

3
卷积神经网络如何精确地使用卷积代替矩阵乘法?
我正在读Yoshua Bengio关于深度学习的书,它在第224页上说: 卷积网络只是简单的神经网络,它在其至少一层中使用卷积代替一般的矩阵乘法。 但是,我不是100%确定如何从数学上精确地“通过卷积替换矩阵乘法”。 我真正感兴趣的是为1D中的输入向量定义此值(例如),因此我将没有输入作为图像并尝试避免2D的卷积。x∈Rdx∈Rdx \in \mathbb{R}^d 因此,例如,在“正常”神经网络中,操作和馈送模式可以简洁地表达,如Andrew Ng的注释: ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)a(l)=z(l+1)W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 其中是在使向量通过非线性之前计算的向量。非线性作用在向量并且是有关层的隐藏单元的输出/激活。 ˚F Ž (升)一个(升+ 1 )z(l)z(l)z^{(l)}fffz(l)z(l)z^{(l)}a(l+1)a(l+1)a^{(l+1)} 对我来说,这种计算很清楚,因为矩阵乘法已为我明确定义,但是,用卷积代替矩阵乘法对我来说似乎并不明确。即 ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)∗a(l)=z(l+1)W(l)∗a(l)=z(l+1) W^{(l)} * a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 我想确保我能精确地数学理解上述方程式。 …

2
使用R的时间序列分析过程和方法
我正在做一个小项目,我们试图预测未来6个月内商品(油,铝,锡等)的价格。我有12个这样的变量可以预测,并且我有2008年4月至2013年5月的数据。 我应该如何进行预测?我已经完成以下工作: 导入的数据作为时间序列数据集 所有变量的季节性都倾向于随趋势而变化,因此我将使用乘法模型。 我将变量的对数转换为加性模型 对于每个变量,使用STL分解数据 我打算使用Holt Winters指数平滑,ARIMA和神经网络进行预测。我将数据分为训练和测试(80、20)。计划选择MAE,MPE,MAPE和MASE较少的模型。 我做对了吗? 我还有一个问题是,在传递给ARIMA或神经网络之前,我应该对数据进行平滑处理吗?如果是,使用什么?数据显示季节性和趋势。 编辑: 附加时间序列图和数据 Year <- c(2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2011, 2011, 2011, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.