Questions tagged «deep-learning»

深度学习是机器学习的一个领域,其目标是使用“深度”(由许多层组成)的特殊神经网络体系结构来学习复杂功能。该标签应用于有关深度学习架构实施的问题。一般的机器学习问题应标记为“机器学习”。包括相关软件库的标签(例如“ keras”,“ tensorflow”,“ pytorch”,“ fast.ai”等)会很有帮助。





6
如何在TensorFlow中应用梯度裁剪?
考虑示例代码。 我想知道如何在RNN上的该网络上应用梯度剪切,而梯度可能会爆炸。 tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) 这是一个可以使用的示例,但是在哪里介绍呢?在RNN中 lstm_cell = rnn_cell.BasicLSTMCell(n_hidden, forget_bias=1.0) # Split data because rnn cell needs a list of inputs for the RNN inner loop _X = tf.split(0, n_steps, _X) # n_steps tf.clip_by_value(_X, -1, 1, name=None) 但这没有意义,因为张量_X是输入,而不是grad,要裁剪的内容是什么? 我是否需要为此定义自己的优化器,还是有一个更简单的选择?

6
在TensorFlow中使用预训练的单词嵌入(word2vec或Glove)
我最近审查了卷积文本分类的一个有趣的实现。但是我检查过的所有TensorFlow代码都使用如下的随机(未经预训练)嵌入向量: with tf.device('/cpu:0'), tf.name_scope("embedding"): W = tf.Variable( tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0), name="W") self.embedded_chars = tf.nn.embedding_lookup(W, self.input_x) self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1) 有谁知道如何使用Word2vec或GloVe预训练词嵌入的结果,而不是随机的结果?

10
如何在TensorFlow中添加正则化?
我在使用TensorFlow实现的许多可用神经网络代码中发现,正则化项通常是通过在损耗值上手动添加一个附加项来实现的。 我的问题是: 是否有比手动进行更优雅或推荐的正规化方法? 我也发现get_variable有一个论点regularizer。应该如何使用?根据我的观察,如果我们向其传递正则化器(例如tf.contrib.layers.l2_regularizer,将计算表示正则化项的张量并将其添加到名为的图集合中tf.GraphKeys.REGULARIZATOIN_LOSSES,该集合是否会被TensorFlow自动使用(例如,训练时由优化器使用)?期望我自己使用该收藏集吗?

6
PyTorch-contiguous()
我正在通过github (link)上的LSTM语言模型示例进行研究。对我来说,它的一般功能非常​​清楚。但是我仍在努力理解调用的contiguous()作用,这在代码中多次发生。 例如,在代码的第74/75行中,创建了LSTM的输入和目标序列。数据(存储在中ids)为二维,其中第一维为批处理大小。 for i in range(0, ids.size(1) - seq_length, seq_length): # Get batch inputs and targets inputs = Variable(ids[:, i:i+seq_length]) targets = Variable(ids[:, (i+1):(i+1)+seq_length].contiguous()) 举一个简单的例子,当使用批处理大小1和seq_length10时inputs,targets如下所示: inputs Variable containing: 0 1 2 3 4 5 6 7 8 9 [torch.LongTensor of size 1x10] targets Variable containing: 1 2 3 4 …

5
验证模型时,Keras中的详细用法是什么?
我是第一次运行LSTM模型。这是我的模型: opt = Adam(0.002) inp = Input(...) print(inp) x = Embedding(....)(inp) x = LSTM(...)(x) x = BatchNormalization()(x) pred = Dense(5,activation='softmax')(x) model = Model(inp,pred) model.compile(....) idx = np.random.permutation(X_train.shape[0]) model.fit(X_train[idx], y_train[idx], nb_epoch=1, batch_size=128, verbose=1) 训练模型时,冗长的用法是什么?

4
Tensorflow中的global_step是什么意思?
这是TensorFlow网站上的教程代码, 谁能帮忙解释什么global_step意思? 我在Tensorflow网站上发现,全局步骤用于计数训练步骤,但我不太清楚其确切含义。 另外,设置时数字0是什么意思global_step? def training(loss,learning_rate): tf.summary.scalar('loss',loss) optimizer = tf.train.GradientDescentOptimizer(learning_rate) # Why 0 as the first parameter of the global_step tf.Variable? global_step = tf.Variable(0, name='global_step',trainable=False) train_op = optimizer.minimize(loss, global_step=global_step) return train_op 根据Tensorflow doc global_step:在变量已更新后增加1。这是否意味着一次更新global_step变为1?


5
Keras,训练模型后如何预测?
我正在使用路透社示例数据集,它运行良好(我的模型已经过训练)。我阅读了有关如何保存模型的信息,因此以后可以加载它以再次使用。但是,如何使用此保存的模型来预测新文本?我用models.predict()吗? 我是否需要以特殊方式准备此文本? 我尝试过 import keras.preprocessing.text text = np.array(['this is just some random, stupid text']) print(text.shape) tk = keras.preprocessing.text.Tokenizer( nb_words=2000, filters=keras.preprocessing.text.base_filter(), lower=True, split=" ") tk.fit_on_texts(text) pred = tk.texts_to_sequences(text) print(pred) model.predict(pred) 但是我总是 (1L,) [[2, 4, 1, 6, 5, 7, 3]] --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-83-42d744d811fb> in <module>() 7 print(pred) …

5
训练期间难治的常见原因
我注意到在培训期间经常发生这种情况NAN。 通常,它似乎是通过权重引入内部产品/完全连接或卷积层中的。 这是因为梯度计算正在爆炸吗?还是因为权重初始化(如果是这样,为什么权重初始化会产生这种效果)?还是可能是由于输入数据的性质引起的? 这里的首要问题很简单:在训练过程中发生NAN的最常见原因是什么?其次,有什么方法可以解决这个问题(为什么它们起作用)?

1
在Keras中,TimeDistributed层的作用是什么?
我试图了解TimeDistributed包装器在Keras中的作用。 我得到了TimeDistributed“将层应用于输入的每个时间片”。 但是我做了一些实验,却得到了我无法理解的结果。 简而言之,对于LSTM层,TimeDistributed和Just Dense层的结果相同。 model = Sequential() model.add(LSTM(5, input_shape = (10, 20), return_sequences = True)) model.add(TimeDistributed(Dense(1))) print(model.output_shape) model = Sequential() model.add(LSTM(5, input_shape = (10, 20), return_sequences = True)) model.add((Dense(1))) print(model.output_shape) 对于这两个模型,我得到的输出形状为(None,10,1)。 在RNN层之后,谁能解释TimeDistributed和Dense层之间的区别?

4
如何解压缩pkl文件?
我有一个来自MNIST数据集的pkl文件,其中包含手写数字图像。 我想看一下每个数字图像,因此我需要解压缩pkl文件,除非我不知道怎么做。 有没有办法解压缩/解压缩pkl文件?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.