Questions tagged «deep-learning»

机器学习研究的一个新领域,涉及用于学习数据的分层表示的技术,主要是通过深度神经网络(即具有两个或多个隐藏层的网络)完成的,但也与某种概率图形模型有关。






4
梯度下降是否总是收敛到最佳状态?
我想知道是否存在梯度下降不会收敛到最小的情况。 我知道,梯度下降并不能始终保证收敛到全局最优值。我也知道,如果步长太大,它可能会偏离最佳值。但是,在我看来,如果它偏离某个最佳值,那么它将最终达到另一个最佳值。 因此,将保证梯度下降收敛到局部或全局最优。那正确吗?如果没有,您能否提供一个粗略的反例?

1
使用LSTM进行时间序列预测:使时间序列平稳的重要性
在关于平稳性和差分的链接中,已经提到诸如ARIMA之类的模型需要平稳的时间序列进行预测,因为其统计特性(例如均值,方差,自相关等)随时间是恒定的。由于RNN具有更好的学习非线性关系的能力(如此处给出:用于时间序列预测的递归神经网络),并且在数据量较大时,其性能要优于传统的时间序列模型,因此了解平稳性至关重要数据会影响其结果。我需要知道答案的问题如下: 对于传统的时间序列预测模型,时间序列数据的平稳性使其更易于预测,原因和方式如何? 在使用LSTM建立时间序列预测模型的同时,使时间序列数据平稳是否重要?如果是这样,那为什么呢?

4
如何获得keras模型的准确性,F1,准确性和召回率?
我想为我的二进制KerasClassifier模型计算精度,召回率和F1分数,但找不到任何解决方案。 这是我的实际代码: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …


3
使用深度学习库从文本中提取关键字/短语
也许这太广泛了,但是我正在寻找有关如何在文本摘要任务中使用深度学习的参考。 我已经使用标准的词频方法和句子排序来实现文本摘要,但是我想探索使用深度学习技术来完成此任务的可能性。我还通过使用卷积神经网络(CNN)进行情感分析,在wildml.com上进行了一些实现;我想知道如何使用TensorFlow或Theano等库进行文本汇总和关键字提取。自从我开始尝试神经网络以来已经过去了大约一周的时间,我非常高兴地看到这些库的性能与我以前解决此问题的方法相比如何。 我特别在寻找一些有趣的论文和与使用这些框架进行文本汇总有关的github项目。谁能提供一些参考资料给我?

2
Keras vs.tf.keras
我在为新研究项目选择Keras(keras-team / keras)和tf.keras(tensorflow / tensorflow / python / keras /)之间有点困惑。 有争论称,Keras不归任何人所有,因此人们更乐于参与其中,将来管理该项目将更加容易。‬ 在另一边,tf.keras是由谷歌所拥有,因此更严格的测试和维护。而且,这似乎是利用Tensorflow v.2中提供的新功能的更好选择。 因此,要启动一个数据科学(机器学习)项目(在研究阶段),在开始时都没问题,您选择哪个?

2
为什么将ReLU用作激活功能?
激活函数用于w * x + b在神经网络的类型的线性输出中引入非线性。 对于激活功能(例如Sigmoid),我能够直观地理解。 我了解ReLU的优势,它可以避免反向传播过程中死亡的神经元。但是,我无法理解为什么ReLU的输出为线性时为什么将其用作激活函数? 如果不引入非线性,激活函数的全部意义就不会被破坏吗?

4
使用Keras(Python)进行LSTM-RNN的超参数搜索
来自Keras RNN教程的文章:“ RNN 很棘手。批大小的选择很重要,损耗和优化器的选择很重要,等等。某些配置无法融合。” 因此,这是关于在Keras上调整LSTM-RNN的超参数的一个普遍问题。我想知道一种为您的RNN查找最佳参数的方法。 我从Keras'Github上的IMDB示例开始。 主要模型如下: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = Sequential() model.add(Embedding(max_features, 128, input_length=maxlen)) model.add(LSTM(128)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) # try using …

2
深度学习中的局部极小值与鞍点
我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。 我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。 在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉? 关于深度学习和鞍点,有什么特别之处吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.