Answers:
每个处理文本数据的算法都有一个词汇表。在word2vec的情况下,词汇表由输入语料库中的所有单词组成,或者至少由高于最低频率阈值的单词组成。
算法往往会忽略词汇量之外的单词。但是,有一些方法可以重新构造您的问题,从而基本上没有词汇量不足的单词。
请记住,单词只是word2vec中的“令牌”。它们可以是ngram,也可以是字母。定义词汇表的一种方法是说,至少出现X次的每个单词都在您的词汇表中。然后,将最常见的“音节”(字母n个字母)添加到您的词汇表中。然后,将单个字母添加到词汇表中。
这样,您可以将任何单词定义为
word2vec将单词视为原子。为了获得未知单词的有意义的向量,您要么必须