我想知道为什么在word2vec的CBOW和skip-gram模型中,分层softmax对于不频繁的单词会更好,而负采样对于频繁的单词会更好。我已经在https://code.google.com/p/word2vec/上阅读了声明。
我想知道为什么在word2vec的CBOW和skip-gram模型中,分层softmax对于不频繁的单词会更好,而负采样对于频繁的单词会更好。我已经在https://code.google.com/p/word2vec/上阅读了声明。
Answers:
我不是word2vec的专家,但在阅读Rong,X.(2014)时。word2vec参数学习的解释,根据我自己的NN经验,我将其简化为:
从理论上讲,这两种方法似乎并不是排他性的,但是无论如何,这似乎是为什么它们对于频繁和不频繁的单词会更好的原因。
等级softmax在整个词汇表上构建一棵树,代表稀有单词的叶节点将不可避免地继承其祖先在树中的矢量表示,这可能会受到语料库中其他常见单词的影响。这将有利于新语料库的增量培训。
基于噪声对比估计来开发负采样,并在上下文中随机采样单词,以将观察到的数据与人工生成的随机噪声区分开。