Word2Vec与Sentence2Vec与Doc2Vec


Answers:


22

好吧,这些名称非常简单明了,应该可以使您清楚地了解向量表示形式。

Word2Vec算法构建单词的分布式语义表示。训练的主要方法有两种,“分布式单词袋”和“跳过语法模型”。一种涉及使用中心词来预测上下文词,而另一种涉及使用上下文词来预测词。您可以在Mikolov的论文中详细了解它 。

可以将相同的概念扩展到句子和完整的文档,而无需学习单词的特征表示,而可以学习句子或文档。但是,要获得SentenceToVec的一般概念,可以将其视为句子中所有单词的单词矢量表示的数学平均值。您可以通过平均而无需训练任何SentenceToVec来获得非常好的近似值,但是当然它有其局限性。

Doc2Vec扩展了SentenceToVec或Word2Vec的概念,因为句子也可以被视为文档。培训的想法仍然相似。您可以阅读Mikolov的Doc2Vec 论文以了解更多详细信息。

进入应用程序,这将取决于任务。Word2Vec可有效捕获单词之间的语义关系,因此可用于计算单词相似度或将其作为特征提供给各种NLP任务,例如情感分析等。但是单词只能捕获这么多,有时您需要句子和文档之间的关系,不只是言语。例如,如果您要弄清楚两个堆栈溢出问题是否彼此重复。

一个简单的谷歌搜索将带您进入这些算法的许多应用。


那么,平均单词向量与使用doc2vec有什么区别?在构建向量时doc2vec是否考虑了句子中单词的周围环境(而word2vec则没有)?
约翰·斯特罗德

1
Doc2Vec会为文档以及单词(文档可能是句子)学习随机初始化的向量。手动平均单词向量的性能不同,因为它无法从整个文档中学习。最近Paragram载体已经非常使用与文档相似性等工作时
希曼斯赫·雷
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.