Word2Vec和Doc2Vec是分布式表示还是分布式表示？

10

我已经读过分布表示法是基于分布假设的，即在相似上下文中出现的单词往往具有相似的含义。

Word2Vec和Doc2Vec都根据此假设建模。但是，在原始论文中，即使它们的标题也为Distributed representation of words and phrases和Distributed representation of sentences and documents。因此，这些算法是基于分布表示还是分布式表示。

其他模型（例如LDA和LSA）如何？

— 雅芝
source

5

实际上，Word2Vec / Doc2Vec基于distributional hypothesis每个单词的上下文是其附近单词的位置。同样，LSA将整个文档作为上下文。两种技术都解决了这个word embedding问题-将单词嵌入到连续的向量空间中，同时将语义相关的单词保持在一起。

另一方面，LDA不能解决相同的问题。他们处理一个称为的不同问题topic modeling，该问题是在一组文档中查找潜在主题。

— 涂南
source

我收到了Google网上论坛的回复，内容是，它既分布又分布在不同的角度。根据使用的假设进行分布，根据向量空间中的分布特征进行分布。

— yazhi

是的，从单词向量捕获多个概念的意义上讲，表示形式是分布的，每个概念本身就是一个向量。例如：可能捕获两个概念在性别和，捕捉性别和。这就是为什么

v_{k i n g}

$v_{king}$ maleroyal

v_{q u e e n}

$v_{queen}$ femaleroyal

v_{k i n g} - v_{q u e e n} \sim v_{m a n} - v_{w o m a n}

$v_{king} - v_{queen} \sim v_{man} - v_{woman}$

— Tu N.

2

Turian，Joseph，Lev Ratinov和Yoshua Bengio。“ 单词表示法：一种简单而通用的半监督学习方法。” 计算语言学协会第48届年会论文集。计算语言学协会，2010年。对分布表示和分布表示的定义如下：

甲分布式词表示是基于共生矩阵尺寸的，其中是词汇量，每一行是字的初始表示，而每一列是一些上下文。Sahlgren（2006）以及Turney和Pantel（2010）在构造描述了一些可能的设计决策，包括上下文类型的选择（左窗口，右窗口，窗口大小）和频率计数类型（原始，二进制或tf）。 -idf？）。具有维度，它可能太大而无法使用 $F$ $W×C$ $W$ $F_w$ $w$ $F_c$ $F$ $F_w$ $W$ $F_w$ 作为监督模型中单词w的特征。可以使用某些函数g 将映射到W×d大小的矩阵f，其中，其中f = g（F）。将单词表示为具有维的向量。的选择是另一个设计决策，尽管可能不如最初用于构造的统计数据那么重要。 $F$ $d << C$ $F_w$ $w$ $d$ $g$ $F$

甲分布式表示是致密的，低维，和实值。分布式单词表示称为单词嵌入。嵌入的每个维度代表单词的潜在特征，希望能捕获有用的句法和语义属性。分布式表示形式是紧凑的，从某种意义上说，它可以表示维数中指数级的群集。

仅供参考：单词向量，单词表示形式和向量嵌入之间有什么区别？

— 弗兰克·德农库特
source

2

答案中也同样存在困惑。它具有两种表示形式的属性。让我们来看看它的共同点。Distributional：它的矩阵大小为WxC，然后缩小为Wxd，其中d是嵌入矢量的大小。它使用窗口大小来确定上下文。Distributed：密集的低维向量。它在这些维度上保留了潜在特征（语义属性）。

— yazhi

2

来自Google小组的Andrey Kutuzov的回复令人满意

我会说word2vec算法是基于两者的。

人们说时distributional representation，通常指的是语言方面：含义是上下文，请通过其公司和其他著名语录知道该词。

但是，当人们说时distributed representation，它与语言学几乎没有任何关系。它更多地涉及计算机科学方面。如果我正确理解Mikolov和其他语言distributed，则他们论文中的单词表示矢量表示的每个单个成分都不具有其自身的含义。隐藏了可解释的特征（例如，在word2vec中为单词上下文），并且隐藏distributed在不可解释的向量组件之中：每个组件负责多个可解释特征，每个可解释特征都绑定到多个组件。

因此，word2vec（和doc2vec）在技术上使用分布式表示形式，作为表示词汇语义的一种方式。同时，它在概念上是基于分布假设的：它仅因为分布假设是正确的（单词含义确实与它们的典型上下文相关）而起作用。

但是，当然，这些术语distributed和经常distributional互换使用，从而增加了误解:)

— 雅芝
source