Answers:
在Hinton(2012)提出弃用层的原始论文中,在输出之前,在每个完全连接的(致密)层上均使用了弃用(p = 0.5)。卷积层上没有使用它。这成为最常用的配置。
最近的研究表明,即使在较低的水平上(p = 0.1或0.2),在将压差应用于卷积层时也具有一定的价值。在每个卷积层的激活函数之后使用了Dropout:CONV-> RELU-> DROP。
relu
激活的2D卷积和最大池化层,则(2D)退出层是否应在卷积之后,或在最大池聚层之后或两者都立即进行,或者这没关系吗?
RELU
在每个CONV层之后应用的。我不认为他们研究了在最大池化层之后添加辍学的影响。
原始论文提出了输出之前在每个完全连接的(密集)层上使用的辍学层。卷积层上没有使用它。
当我们在输入图像的宽度和高度上滑动滤镜时,我们不得在卷积层之后使用滤除层,我们会生成一个二维激活图,该图会给出该滤镜在每个空间位置的响应。因此,当缺失层中和(使其为零)随机神经元时,就有可能在我们的训练过程中失去图像中非常重要的特征。
如果我没看错,您可以在每个单元格的非线性之后添加它:
layer_1 = (1/(1+np.exp(-(np.dot(X,synapse_0)))))
if(do_dropout):
layer_1 *= np.random.binomial([np.ones((len(X),hidden_dim))],1-dropout_percent)[0] * (1.0/(1-dropout_percent))
第一行是激活函数,最后一行是将删除项添加到结果中。请参考这个博客。希望这可以帮助。
或者,您可以按照以下代码片段将其放置在输入嵌入中:
class BahdanauAttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, n_layers=1, dropout_p=0.1):
super(AttnDecoderRNN, self).__init__()
# Define parameters
self.hidden_size = hidden_size
self.output_size = output_size
self.n_layers = n_layers
self.dropout_p = dropout_p
self.max_length = max_length
# Define layers
self.embedding = nn.Embedding(output_size, hidden_size)
self.dropout = nn.Dropout(dropout_p)
self.attn = GeneralAttn(hidden_size)
self.gru = nn.GRU(hidden_size * 2, hidden_size, n_layers, dropout=dropout_p)
self.out = nn.Linear(hidden_size, output_size)
def forward(self, word_input, last_hidden, encoder_outputs):
# Note that we will only be running forward for a single decoder time step, but will use all encoder outputs
# Get the embedding of the current input word (last output word)
word_embedded = self.embedding(word_input).view(1, 1, -1) # S=1 x B x N
word_embedded = self.dropout(word_embedded)
# Calculate attention weights and apply to encoder outputs
attn_weights = self.attn(last_hidden[-1], encoder_outputs)
context = attn_weights.bmm(encoder_outputs.transpose(0, 1)) # B x 1 x N
# Combine embedded input word and attended context, run through RNN
rnn_input = torch.cat((word_embedded, context), 2)
output, hidden = self.gru(rnn_input, last_hidden)
# Final output layer
output = output.squeeze(0) # B x N
output = F.log_softmax(self.out(torch.cat((output, context), 1)))
# Return final output, hidden state, and attention weights (for visualization)
return output, hidden, attn_weights
来源:https : //github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb
从技术上讲,您可以在块的末尾添加辍学层,例如在卷积之后或在RNN编码之后。