tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None)
我不了解此功能的职责。像查找表吗?用哪种方法返回每个ID对应的参数(以ID为单位)?
例如,在skip-gram
模型中,如果使用tf.nn.embedding_lookup(embeddings, train_inputs)
,则为每个train_input
找到对应的嵌入?
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None)
我不了解此功能的职责。像查找表吗?用哪种方法返回每个ID对应的参数(以ID为单位)?
例如,在skip-gram
模型中,如果使用tf.nn.embedding_lookup(embeddings, train_inputs)
,则为每个train_input
找到对应的嵌入?
Answers:
embedding_lookup
函数检索params
张量的行。该行为类似于对numpy中的数组使用索引。例如
matrix = np.random.random([1024, 64]) # 64-dimensional embeddings
ids = np.array([0, 5, 17, 33])
print matrix[ids] # prints a matrix of shape [4, 64]
params
参数也可以是张量的列表,在这种情况下,ids
将在张量之间分配。例如,给定的3张量列表[2, 64]
,默认行为是,他们将代表ids
:[0, 3]
,[1, 4]
,[2, 5]
。
partition_strategy
控制ids
列表中的分布方式。当矩阵可能太大而无法合为一体时,分区对于较大规模的问题很有用。
select_rows
呢?
embedding_lookup
只是提供了一种便捷(并行)的方法来检索与id中的id对应的嵌入ids
。的params
张量通常是TF变量被学习作为训练过程的一部分-一个TF变量,其分量被用于直接或间接地在损耗函数(例如tf.l2_loss
),这是由一个优化器(例如优化的tf.train.AdamOptimizer
)。
是的,在您明白这一点之前,很难理解此功能。
最简单的形式类似于tf.gather
。它params
根据所指定的索引返回的元素ids
。
例如(假设您在里面tf.InteractiveSession()
)
params = tf.constant([10,20,30,40])
ids = tf.constant([0,1,2,3])
print tf.nn.embedding_lookup(params,ids).eval()
将返回[10 20 30 40]
,因为params的第一个元素(索引0)为,params 10
的第二个元素(索引1)为20
,依此类推。
同样,
params = tf.constant([10,20,30,40])
ids = tf.constant([1,1,3])
print tf.nn.embedding_lookup(params,ids).eval()
会回来的[20 20 40]
。
但embedding_lookup
比这更。该params
参数可以是张量列表,而不是单个张量。
params1 = tf.constant([1,2])
params2 = tf.constant([10,20])
ids = tf.constant([2,0,2,1,2,3])
result = tf.nn.embedding_lookup([params1, params2], ids)
在这种情况下,ids
根据分区策略,在中指定的索引对应于张量的元素,其中默认分区策略为'mod'。
在'mod'策略中,索引0对应于列表中第一个张量的第一个元素。索引1对应于第二张量的第一元素。索引2对应于第三张量的第一个元素,依此类推。假设params是张量的列表,对于所有索引,简单地index 对应第(i + 1)张量的第一个元素。i
0..(n-1)
n
现在,索引n
不能对应于张量n + 1,因为列表params
仅包含n
张量。因此index n
对应于第一个张量的第二个元素。类似地,index n+1
对应于第二张量的第二个元素,依此类推。
因此,在代码中
params1 = tf.constant([1,2])
params2 = tf.constant([10,20])
ids = tf.constant([2,0,2,1,2,3])
result = tf.nn.embedding_lookup([params1, params2], ids)
下标0对应于第一个张量的第一个元素:1
索引1对应于第二张量的第一个元素:10
索引2对应于第一个张量的第二个元素:2
索引3对应于第二张量的第二个元素:20
因此,结果将是:
[ 2 1 2 10 2 20]
partition_strategy='div'
,并且会得到[10, 1, 10, 2, 10, 20]
,即id=1
是第一个参数的第二个元素。基本上:( partition_strategy=mod
默认值) id%len(params)
:参数的参数在params中id//len(params)
:元素在上述参数中partition_strategy=*div*
的索引(相反)
是的,该tf.nn.embedding_lookup()
函数的目的是在嵌入矩阵中执行查找并返回单词的嵌入(或简单地说是矢量表示)。
一个简单的嵌入矩阵(形状vocabulary_size x embedding_dimension
:)如下所示。(即每个单词将由一个数字向量表示;因此,名称为word2vec)
嵌入矩阵
the 0.418 0.24968 -0.41242 0.1217 0.34527 -0.044457 -0.49688 -0.17862
like 0.36808 0.20834 -0.22319 0.046283 0.20098 0.27515 -0.77127 -0.76804
between 0.7503 0.71623 -0.27033 0.20059 -0.17008 0.68568 -0.061672 -0.054638
did 0.042523 -0.21172 0.044739 -0.19248 0.26224 0.0043991 -0.88195 0.55184
just 0.17698 0.065221 0.28548 -0.4243 0.7499 -0.14892 -0.66786 0.11788
national -1.1105 0.94945 -0.17078 0.93037 -0.2477 -0.70633 -0.8649 -0.56118
day 0.11626 0.53897 -0.39514 -0.26027 0.57706 -0.79198 -0.88374 0.30119
country -0.13531 0.15485 -0.07309 0.034013 -0.054457 -0.20541 -0.60086 -0.22407
under 0.13721 -0.295 -0.05916 -0.59235 0.02301 0.21884 -0.34254 -0.70213
such 0.61012 0.33512 -0.53499 0.36139 -0.39866 0.70627 -0.18699 -0.77246
second -0.29809 0.28069 0.087102 0.54455 0.70003 0.44778 -0.72565 0.62309
我分裂上述嵌入基质并装载仅话中vocab
,这将是我们的词汇并在相应的向量emb
阵列。
vocab = ['the','like','between','did','just','national','day','country','under','such','second']
emb = np.array([[0.418, 0.24968, -0.41242, 0.1217, 0.34527, -0.044457, -0.49688, -0.17862],
[0.36808, 0.20834, -0.22319, 0.046283, 0.20098, 0.27515, -0.77127, -0.76804],
[0.7503, 0.71623, -0.27033, 0.20059, -0.17008, 0.68568, -0.061672, -0.054638],
[0.042523, -0.21172, 0.044739, -0.19248, 0.26224, 0.0043991, -0.88195, 0.55184],
[0.17698, 0.065221, 0.28548, -0.4243, 0.7499, -0.14892, -0.66786, 0.11788],
[-1.1105, 0.94945, -0.17078, 0.93037, -0.2477, -0.70633, -0.8649, -0.56118],
[0.11626, 0.53897, -0.39514, -0.26027, 0.57706, -0.79198, -0.88374, 0.30119],
[-0.13531, 0.15485, -0.07309, 0.034013, -0.054457, -0.20541, -0.60086, -0.22407],
[ 0.13721, -0.295, -0.05916, -0.59235, 0.02301, 0.21884, -0.34254, -0.70213],
[ 0.61012, 0.33512, -0.53499, 0.36139, -0.39866, 0.70627, -0.18699, -0.77246 ],
[ -0.29809, 0.28069, 0.087102, 0.54455, 0.70003, 0.44778, -0.72565, 0.62309 ]])
emb.shape
# (11, 8)
在TensorFlow中嵌入查找
现在,我们将看到如何对某些任意输入语句执行嵌入查找。
In [54]: from collections import OrderedDict
# embedding as TF tensor (for now constant; could be tf.Variable() during training)
In [55]: tf_embedding = tf.constant(emb, dtype=tf.float32)
# input for which we need the embedding
In [56]: input_str = "like the country"
# build index based on our `vocabulary`
In [57]: word_to_idx = OrderedDict({w:vocab.index(w) for w in input_str.split() if w in vocab})
# lookup in embedding matrix & return the vectors for the input words
In [58]: tf.nn.embedding_lookup(tf_embedding, list(word_to_idx.values())).eval()
Out[58]:
array([[ 0.36807999, 0.20834 , -0.22318999, 0.046283 , 0.20097999,
0.27515 , -0.77126998, -0.76804 ],
[ 0.41800001, 0.24968 , -0.41242 , 0.1217 , 0.34527001,
-0.044457 , -0.49687999, -0.17862 ],
[-0.13530999, 0.15485001, -0.07309 , 0.034013 , -0.054457 ,
-0.20541 , -0.60086 , -0.22407 ]], dtype=float32)
注意我们是怎么得到的嵌入使用从我们原来的嵌入矩阵(文字)的话指数在我们的词汇。
通常,此类嵌入查找是由第一层(称为“ 嵌入层”)执行的,然后将这些嵌入传递到RNN / LSTM / GRU层以进行进一步处理。
旁注:通常,词汇表还将具有特殊unk
标记。因此,如果词汇表中不存在来自我们输入句子的标记,则将unk
在嵌入矩阵中查找与之相对应的索引。
PS注意,embedding_dimension
是一个超参数是一个具有调整他们的应用程序,但受欢迎的车型,如Word2Vec和手套使用300
维向量表示每个字。
奖励阅读 word2vec跳过语法模型
这是描述嵌入查找过程的图像。
简而言之,它获取由ID列表指定的嵌入层的相应行,并将其作为张量提供。它是通过以下过程实现的。
lookup_ids = tf.placeholder([10])
embeddings = tf.Variable([100,10],...)
embed_lookup = tf.embedding_lookup(embeddings, lookup_ids)
lookup = session.run(embed_lookup, feed_dict={lookup_ids:[95,4,14]})
当参数张量为高维时,id仅指最大维。也许对大多数人来说这很明显,但是我必须运行以下代码来理解这一点:
embeddings = tf.constant([[[1,1],[2,2],[3,3],[4,4]],[[11,11],[12,12],[13,13],[14,14]],
[[21,21],[22,22],[23,23],[24,24]]])
ids=tf.constant([0,2,1])
embed = tf.nn.embedding_lookup(embeddings, ids, partition_strategy='div')
with tf.Session() as session:
result = session.run(embed)
print (result)
只是尝试“ div”策略,对于一个张量,这没有什么区别。
这是输出:
[[[ 1 1]
[ 2 2]
[ 3 3]
[ 4 4]]
[[21 21]
[22 22]
[23 23]
[24 24]]
[[11 11]
[12 12]
[13 13]
[14 14]]]
另一种查看方式是,假设您将张量展平为一维数组,然后执行查找。
(例如)Tensor0 = [1,2,3],Tensor1 = [4,5,6],Tensor2 = [7,8,9]
展平的张量将如下[1,4,7,2,5,8,3,6,9]
现在,当您执行[0,3,4,1,7]的查找时,将会产生[1,2,5,4,6]
(i,e)例如,如果lookup值为7,而我们有3个张量(或具有3行的张量),
7/3 :(提醒为1,商为2)因此将显示Tensor1的第二个元素,即6