Questions tagged «neural-network»

人工神经网络(ANN)由“神经元”组成-模仿生物神经元特性的编程结构。神经元之间的一组加权连接允许信息通过网络传播以解决人工智能问题,而无需网络设计人员拥有真实系统的模型。

1
偏差应如何初始化和正规化?
我已经阅读了几篇有关内核初始化的论文,许多论文提到它们使用内核的L2正则化(通常使用)。λ=0.0001λ=0.0001\lambda = 0.0001 除了用恒定零初始化偏差而不对其进行正则化之外,还有人做其他事情吗? 内核初始化文件 Mishkin和Matas:您需要的只是一个好的初始化 Xavier Glorot和Yoshua Bengio:了解训练深度前馈神经网络的难度 他等人:深入研究整流器:在ImageNet分类上超越人类水平的性能


1
忘记循环神经网络(RNN)中的层-
我试图找出一个RNN的“忘记”层中每个变量的尺寸,但是,我不确定自己是否走对了。下一张图片和等式来自Colah的博客文章“ Understanding LSTM Networks”: 哪里: m * 1xtxtx_t是大小为向量的输入m∗1m∗1m*1 ht−1ht−1h_{t-1}是大小为向量的隐藏状态n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]是一个串联(例如,如果,则)xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_f是大小为矩阵的权重,其中是单元状态的数量(如果在上面的示例中,而,并且如果我们有3个单元状态,则矩阵)k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_f是大小为向量的偏差,其中是单元状态的数量(由于上述示例中,因此是 向量)。k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 如果将设置为: wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 …

3
现在(2016年)的深度学习神经网络与我四年前(2012年)学习的神经网络有何不同?
在Wikipedia和deeplearning4j中,有人说深度学习NN(DLNN)是具有> 1隐层的NN。 对于我来说,这类NN在大学中是标准的,而DLNN如今非常受炒作。到那儿去了,做完了-有什么大不了的? 我还听说堆叠式NN被认为是深度学习。如何真正定义深度学习? 我的NN背景主要来自大学,而不是工作: 研究了NN在工业中的应用 关于artif的课程大约有5门。英特尔。和马赫。学习。-尽管其中有2个在NN上 使用NN进行小型,简单的图像识别项目-使用3层前馈NN 没有对他们做真正的研究(如在博士论文中)

2
是否有必要更改Keras中Early Stopping回调所使用的指标?
当在Keras中使用Early Stopping回调时,某些指标(通常是验证损失)没有增加时,训练将停止。有没有一种方法可以使用其他指标(例如精度,召回率,f度量)代替验证损失?到目前为止,我所看到的所有示例都与此示例类似:callbacks.EarlyStopping(monitor ='val_loss',耐心= 5,冗长= 0,mode ='auto')

1
Keras中的多任务学习
我正在尝试在Keras中实现共享层。我确实看到Keras拥有keras.layers.concatenate,但是我从文档中不确定其用法。我可以使用它来创建多个共享层吗?如下所示,使用Keras来实现简单的共享神经网络的最佳方法是什么? 请注意,所有3个NN的输入,输出和共享层的所有形状都相同。三个NN中有多个共享层(和非共享层)。着色层对于每个NN都是唯一的,并且具有相同的形状。 基本上,该图表示具有多个共享隐藏层的3个相同的NN,然后是多个非共享隐藏层。 我不确定如何像Twitter示例中那样共享多个层,只有一个共享层(API文档中的示例)。

1
那么LSTM有什么收获呢?
我正在扩展我对Keras软件包的了解,并且一直在使用一些可用的模型作为工具。我有一个NLP二进制分类问题,我正在尝试解决,并且一直在应用不同的模型。 在获得了一些结果并越来越多地了解LSTM之后,看来这种方法远远优于我尝试过的任何方法(跨多个数据集)。我一直在想自己,“为什么/何时不使用LSTM?”。在某些模型的梯度逐渐消失之后,使用LSTM固有的附加门对我来说非常有意义。 那么LSTM有什么收获呢?他们在哪里做得不好?我知道没有“一刀切”的算法,因此LSTM必须有一个缺点。


2
神经网络可以计算
出于著名的Tensorflow Fizz Buzz笑话和XOr问题的精神,我开始思考,是否有可能设计实现ÿ= x2y=x2y = x^2函数的神经网络? 给定一个数字的某种表示形式(例如,作为二进制形式的向量,因此该数字5表示为[1,0,1,0,0,0,0,...]),在这种情况下,神经网络应学会返回其平方-25。 如果我可以实现ÿ= x2y=x2y=x^2,那么我可能可以实现ÿ= x3y=x3y=x^3并且通常可以实现x的任意多项式,然后使用泰勒级数,我可以近似ÿ= 罪(x )y=sin⁡(x)y=\sin(x),这将解决Fizz Buzz问题-神经网络可以找到该部门的其余部分。 显然,仅NN的线性部分将无法执行此任务,因此,如果我们能够进行乘法运算,则由于激活函数而将发生这种情况。 您可以提出任何建议或阅读相关主题吗?

3
有设计神经网络的经验法则吗?
我知道神经网络体系结构主要基于问题本身和输入/输出的类型,但是仍然-在开始构建时总是存在“正方形”。所以我的问题是-给定一个MxN的输入数据集(M是记录数,N是要素数)和一个C可能的输出类-是否有一个应该从几层/单位开始的经验法则?

4
如何知道模型已开始过度拟合?
我希望以下摘录能够深入了解我的问题。这些来自http://neuralnetworksanddeeplearning.com/chap3.html 然后学习逐渐放慢。最终,在时代280左右,分类精度几乎停止提高。稍后的时期仅在时期280处的准确性值附近看到小的随机波动。这与之前的图相反,在早期的图中与训练数据相关的成本继续平稳下降。如果仅考虑这一成本,看来我们的模型仍在“变得更好”。但是测试精度结果表明,改进是一种幻想。就像费米不喜欢的模型一样,在280期之后,我们的网络所学的内容不再推广到测试数据。因此,这不是有用的学习。我们说,网络在第280代之后过度拟合或过度训练。 我们正在训练一个神经网络,并且成本(在训练数据上)一直下降到第400阶段,但是在280阶段之后分类精度变得固定(除非有一些随机波动),因此我们得出结论,该模型在280阶段之后过度拟合了训练数据。 我们可以看到测试数据的成本在直到第15个时期之前一直在提高,但此后它实际上开始变得更糟,即使训练数据的成本在继续提高。这是我们的模型过度拟合的另一个迹象。但是,这构成了一个难题,那就是我们是否应该将第15或280时期视为过度拟合将主导学习的点?从实践的角度来看,我们真正关心的是提高测试数据的分类准确性,而测试数据的成本只不过代表了分类准确性。因此,将时代280视为过度拟合是控制我们神经网络学习的主要途径。 与以前相比,将测试数据的分类准确性与培训成本进行对比,我们现在将测试数据的成本与培训成本进行比较。 然后,本书继续解释为什么280是过度拟合开始的正确时期。这就是我的问题。我无法解决这个问题。 我们要求模型最小化成本,因此成本是它用来衡量自身正确分类强度的度量。如果我们认为280是过度拟合开始的正确时机,我们是否没有以某种方式创建一个偏向模型,尽管该偏向模型虽然可以对特定测试数据进行更好的分类,但是却以较低的置信度做出决策,因此更倾向于偏离从测试数据上显示的结果来看?


2
建模不均匀间隔的时间序列
我有一个连续变量,在一年中以不定期的间隔进行采样。有些日子每小时的观测不只一次,而另一些日子则没有几天。这使得检测时间序列中的模式特别困难,因为某些月份(例如10月)的采样很高,而另一些则没有。 我的问题是对这个时间序列建模的最佳方法是什么? 我相信大多数时间序列分析技术(例如ARMA)都需要固定频率。我可以汇总数据,以获取恒定的样本或选择非常详细的数据子集。使用这两个选项时,我将丢失原始数据集中的某些信息,这些信息可能会揭示不同的模式。 除了可以按周期分解系列之外,我还可以将整个数据集提供给模型,并期望它能够拾取模式。例如,我将分类变量中的小时,工作日和月份进行了转换,并尝试了具有良好结果的多元回归(R2 = 0.71) 我的想法是,诸如ANN之类的机器学习技术也可以从不均匀的时间序列中选择这些模式,但是我想知道是否有人尝试过这种方法,并且可以为我提供一些有关在神经网络中表示时间模式的最佳方法的建议。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.