Word2Vec与Sentence2Vec与Doc2Vec

最近，我遇到了Word2Vec，Sentence2Vec和Doc2Vec这两个术语，由于对向量语义不熟悉，因此感到有些困惑。有人可以用简单的文字详细说明这些方法的区别。每种方法最适合的任务是什么？

machine-learning data-mining clustering nlp unsupervised-learning

— 史密斯
source

好吧，这些名称非常简单明了，应该可以使您清楚地了解向量表示形式。

Word2Vec算法构建单词的分布式语义表示。训练的主要方法有两种，“分布式单词袋”和“跳过语法模型”。一种涉及使用中心词来预测上下文词，而另一种涉及使用上下文词来预测词。您可以在Mikolov的论文中详细了解它。

可以将相同的概念扩展到句子和完整的文档，而无需学习单词的特征表示，而可以学习句子或文档。但是，要获得SentenceToVec的一般概念，可以将其视为句子中所有单词的单词矢量表示的数学平均值。您可以通过平均而无需训练任何SentenceToVec来获得非常好的近似值，但是当然它有其局限性。

Doc2Vec扩展了SentenceToVec或Word2Vec的概念，因为句子也可以被视为文档。培训的想法仍然相似。您可以阅读Mikolov的Doc2Vec 论文以了解更多详细信息。

进入应用程序，这将取决于任务。Word2Vec可有效捕获单词之间的语义关系，因此可用于计算单词相似度或将其作为特征提供给各种NLP任务，例如情感分析等。但是单词只能捕获这么多，有时您需要句子和文档之间的关系，不只是言语。例如，如果您要弄清楚两个堆栈溢出问题是否彼此重复。

一个简单的谷歌搜索将带您进入这些算法的许多应用。

— Himanshu Rai
source

那么，平均单词向量与使用doc2vec有什么区别？在构建向量时doc2vec是否考虑了句子中单词的周围环境（而word2vec则没有）？

— 约翰·斯特罗德

Doc2Vec会为文档以及单词（文档可能是句子）学习随机初始化的向量。手动平均单词向量的性能不同，因为它无法从整个文档中学习。最近Paragram载体已经非常使用与文档相似性等工作时

— 希曼斯赫·雷