为什么对于不常用的单词,skip-gram比CBOW更好?


Answers:


14

在CBOW中,在预测中心词之前对上下文词的向量进行平均。在skip-gram中,没有对嵌入向量进行平均。当在预测过程中未将稀有词的向量与其他上下文词取平均时,该模型似乎可以为稀有词学习更好的表示形式。


13

这是我对差异的过于简单和天真的理解:

众所周知,CBOW正在学习根据上下文预测单词。或者通过查看上下文来最大化目标单词的概率。碰巧这是个难得的问题。例如,给定上下文yesterday was really [...] dayCBOW模型将告诉您,很可能单词是beautifulor nice。像这样的单词delightful将很少受到模型的注意,因为它旨在预测最可能出现的单词。在许多示例中,使用频率更高的单词可以使稀有单词变得更加平滑。

另一方面,跳过语法被设计为预测上下文。给定单词,delightful它必须理解并告诉我们,存在很大的可能性,上下文为yesterday was really [...] day或其他相关上下文。使用skip-gram时,单词delightful不会尝试与单词竞争,beautiful而是delightful+context将对视为新的观察值。因此,skip-gram将需要更多数据,因此它将学会理解甚至是稀有单词。


0

我刚看过一篇论文,显示出相反的内容:CBOW对于不常用的单词比skip-gram https://arxiv.org/abs/1609.08293更好。我想知道在https://code.google.com/p/word2vec/上声明的主张的来源是什么。


我相信Mikolov亲自编写了该工具包。有趣的是,在他的论文中:papers.nips.cc/paper/…他说:“我们表明,训练过程中频繁单词的二次采样可显着提高速度(大约2倍-10倍),并提高了不频繁单词表示的准确性。 ” 因此,它的skip-gram带有子采样扩展名。
凯文·
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.