Answers:
实际上,Word2Vec / Doc2Vec基于distributional hypothesis
每个单词的上下文是其附近单词的位置。同样,LSA将整个文档作为上下文。两种技术都解决了这个word embedding
问题-将单词嵌入到连续的向量空间中,同时将语义相关的单词保持在一起。
另一方面,LDA不能解决相同的问题。他们处理一个称为的不同问题topic modeling
,该问题是在一组文档中查找潜在主题。
male
royal
female
royal
Turian,Joseph,Lev Ratinov和Yoshua Bengio。“ 单词表示法:一种简单而通用的半监督学习方法。” 计算语言学协会第48届年会论文集。计算语言学协会,2010年。对分布表示和分布表示的定义如下:
甲分布式词表示是基于共生矩阵尺寸的,其中是词汇量,每一行是字的初始表示,而每一列 是一些上下文。Sahlgren(2006)以及Turney和Pantel(2010)在构造描述了一些可能的设计决策,包括上下文类型的选择(左窗口,右窗口,窗口大小)和频率计数类型(原始,二进制或tf)。 -idf?)。具有维度,它可能太大而无法使用w ^ × Ç W¯¯ ˚F 瓦特瓦特˚F Ç ˚F ˚F 瓦特 W¯¯ ˚F 瓦特 ˚F d < < Ç ˚F 瓦特瓦特d 克˚F作为监督模型中单词w的特征。可以使用某些函数g 将映射到W×d大小的矩阵f,其中,其中f = g(F)。将单词表示 为具有维的向量。的选择是另一个设计决策,尽管可能不如最初用于构造的统计数据那么重要。
甲分布式表示是致密的,低维,和实值。分布式单词表示称为单词嵌入。嵌入的每个维度代表单词的潜在特征,希望能捕获有用的句法和语义属性。分布式表示形式是紧凑的,从某种意义上说,它可以表示维数中指数级的群集。
Distributional
:它的矩阵大小为WxC,然后缩小为Wxd,其中d是嵌入矢量的大小。它使用窗口大小来确定上下文。Distributed
:密集的低维向量。它在这些维度上保留了潜在特征(语义属性)。
来自Google小组的Andrey Kutuzov的回复令人满意
我会说word2vec算法是基于两者的。
人们说时
distributional representation
,通常指的是语言方面:含义是上下文,请通过其公司和其他著名语录知道该词。但是,当人们说时
distributed representation
,它与语言学几乎没有任何关系。它更多地涉及计算机科学方面。如果我正确理解Mikolov和其他语言distributed
,则他们论文中的单词 表示矢量表示的每个单个成分都不具有其自身的含义。隐藏了可解释的特征(例如,在word2vec中为单词上下文),并且隐藏distributed
在不可解释的向量组件之中:每个组件负责多个可解释特征,每个可解释特征都绑定到多个组件。因此,word2vec(和doc2vec)在技术上使用分布式表示形式,作为表示词汇语义的一种方式。同时,它在概念上是基于分布假设的:它仅因为分布假设是正确的(单词含义确实与它们的典型上下文相关)而起作用。
但是,当然,这些术语
distributed
和经常distributional
互换使用,从而增加了误解:)