Answers:
好吧,这些名称非常简单明了,应该可以使您清楚地了解向量表示形式。
Word2Vec算法构建单词的分布式语义表示。训练的主要方法有两种,“分布式单词袋”和“跳过语法模型”。一种涉及使用中心词来预测上下文词,而另一种涉及使用上下文词来预测词。您可以在Mikolov的论文中详细了解它 。
可以将相同的概念扩展到句子和完整的文档,而无需学习单词的特征表示,而可以学习句子或文档。但是,要获得SentenceToVec的一般概念,可以将其视为句子中所有单词的单词矢量表示的数学平均值。您可以通过平均而无需训练任何SentenceToVec来获得非常好的近似值,但是当然它有其局限性。
Doc2Vec扩展了SentenceToVec或Word2Vec的概念,因为句子也可以被视为文档。培训的想法仍然相似。您可以阅读Mikolov的Doc2Vec 论文以了解更多详细信息。
进入应用程序,这将取决于任务。Word2Vec可有效捕获单词之间的语义关系,因此可用于计算单词相似度或将其作为特征提供给各种NLP任务,例如情感分析等。但是单词只能捕获这么多,有时您需要句子和文档之间的关系,不只是言语。例如,如果您要弄清楚两个堆栈溢出问题是否彼此重复。
一个简单的谷歌搜索将带您进入这些算法的许多应用。