Word2Vec和Doc2Vec是分布式表示还是分布式表示?


10

我已经读过分布表示法是基于分布假设的,即在相似上下文中出现的单词往往具有相似的含义。

Word2Vec和Doc2Vec都根据此假设建模。但是,在原始论文中,即使它们的标题也为Distributed representation of words and phrasesDistributed representation of sentences and documents。因此,这些算法是基于分布表示还是分布式表示。

其他模型(例如LDA和LSA)如何?

Answers:


5

实际上,Word2Vec / Doc2Vec基于distributional hypothesis每个单词的上下文是其附近单词的位置。同样,LSA将整个文档作为上下文。两种技术都解决了这个word embedding问题-将单词嵌入到连续的向量空间中,同时将语义相关的单词保持在一起。

另一方面,LDA不能解决相同的问题。他们处理一个称为的不同问题topic modeling,该问题是在一组文档中查找潜在主题。


我收到了Google网上论坛的回复,内容是,它既分布又分布在不同的角度。根据使用的假设进行分布,根据向量空间中的分布特征进行分布。
yazhi

是的,从单词向量捕获多个概念的意义上讲,表示形式是分布的,每个概念本身就是一个向量。例如:可能捕获两个概念在性别和,捕捉性别和。这就是为什么 v q û ë ë Ñ v ķ Ñ - v q ü ë ë Ñv 一个ñ - v 瓦特ö 一个Ñvkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
Tu N.

2

Turian,Joseph,Lev Ratinov和Yoshua Bengio。“ 单词表示法:一种简单而通用的半监督学习方法。” 计算语言学协会第48届年会论文集。计算语言学协会,2010年。对分布表示和分布表示的定义如下:

  • 分布式词表示是基于共生矩阵尺寸的,其中是词汇量,每一行是字的初始表示,而每一列 是一些上下文。Sahlgren(2006)以及Turney和Pantel(2010)在构造描述了一些可能的设计决策,包括上下文类型的选择(左窗口,右窗口,窗口大小)和频率计数类型(原始,二进制或tf)。 -idf?)。具有维度,它可能太大而无法使用w ^ × Ç W¯¯ ˚F 瓦特瓦特˚F Ç ˚F ˚F 瓦特 W¯¯ ˚F 瓦特 ˚F d < < Ç ˚F 瓦特瓦特d ˚FFW×CWFwwFcFFwWFw作为监督模型中单词w的特征。可以使用某些函数g 将映射到W×d大小的矩阵f,其中,其中f = g(F)。将单词表示 为具有维的向量。的选择是另一个设计决策,尽管可能不如最初用于构造的统计数据那么重要。Fd<<CFwwdgF

  • 分布式表示是致密的,低维,和实值。分布式单词表示称为单词嵌入。嵌入的每个维度代表单词的潜在特征,希望能捕获有用的句法和语义属性。分布式表示形式是紧凑的,从某种意义上说,它可以表示维数中指数级的群集。

仅供参考:单词向量,单词表示形式和向量嵌入之间有什么区别?


2
答案中也同样存在困惑。它具有两种表示形式的属性。让我们来看看它的共同点。Distributional:它的矩阵大小为WxC,然后缩小为Wxd,其中d是嵌入矢量的大小。它使用窗口大小来确定上下文。Distributed:密集的低维向量。它在这些维度上保留了潜在特征(语义属性)。
yazhi

2

来自Google小组的Andrey Kutuzov的回复令人满意

我会说word2vec算法是基于两者的。

人们说时distributional representation,通常指的是语言方面:含义是上下文,请通过其公司和其他著名语录知道该词。

但是,当人们说时distributed representation,它与语言学几乎没有任何关系。它更多地涉及计算机科学方面。如果我正确理解Mikolov和其他语言distributed,则他们论文中的单词 表示矢量表示的每个单个成分都不具有其自身的含义。隐藏了可解释的特征(例如,在word2vec中为单词上下文),并且隐藏distributed在不可解释的向量组件之中:每个组件负责多个可解释特征,每个可解释特征都绑定到多个组件。

因此,word2vec(和doc2vec)在技术上使用分布式表示形式,作为表示词汇语义的一种方式。同时,它在概念上是基于分布假设的:它仅因为分布假设是正确的(单词含义确实与它们的典型上下文相关)而起作用。

但是,当然,这些术语distributed和经常distributional互换使用,从而增加了误解:)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.