负采样在word2vec中如何工作?


19

我一直在努力理解word2vec中否定采样的概念。我无法消化[负]采样的想法。例如,在米科洛夫(Mikolov)的论文中,负采样期望被表示为

logσ(w,c)+kEcNPD[logσ(w,cN)].

我了解左边的,但是我无法理解对否定的词-语境对采样的想法。logσ(w,c)


4
荒谬的是word2vec的文档是多么荒谬。您可以在此处找到负采样派生:arxiv.org/pdf/1402.3722v1.pdf
Alex R.

我仔细阅读了您引用的说明,并了解了其背后的数学原理。但是我无法理解采样背后的直觉。
Upendra Kumar

Answers:


27

问题

使用“标准”神经网络学习单词向量存在一些问题。以这种方式,在网络学习给定单词窗口(网络的输入)的情况学习单词向量的同时学习单词向量。

预测下一个单词就像预测班级。也就是说,这样的网络仅仅是“标准”多项式(多类)分类器。并且该网络必须具有与类一样多的输出神经元。当类是实际的单词时,神经元的数量是巨大的

通常使用交叉熵代价函数训练“标准”神经网络,该函数需要输出神经元的值来表示概率-这意味着必须对网络为每个类别计算的输出“分数”进行归一化,转换为每个类别的实际概率。该标准化步骤是通过softmax函数实现的。当将Softmax应用于巨大的输出层时,其成本非常高。

(一)解决方案

为了解决此问题,即softmax的昂贵计算,Word2Vec使用了一种称为噪声对比估计的技术此技术由[A]引入(由[B]进行了重组),然后在[C],[D],[E]中用于从未标记的自然语言文本中学习单词嵌入。

基本思想是将多项式分类问题(因为它是预测下一个单词的问题)转换为二进制分类问题。也就是说,不是使用softmax来估计输出单词的真实概率分布,而是使用二进制逻辑回归(二进制分类)。

对于每个训练样本,增强型(优化的)分类器被提供一个真对(一个中心词和另一个出现在其上下文中的词)和随机破坏的对(由中心词和一个随机选择的词组成)。词汇)。通过学习区分真对和损坏的对,分类器将最终学习单词向量。ķ

这一点很重要:不是预测下一个单词(以下简称“标准”培训技术),优化的分类只是预测了对词是否是还是

Word2Vec 稍微自定义了该过程,并将其称为否定采样。在Word2Vec中,用于负样本的单词(用于损坏的对)是从专门设计的分布中提取的,这有利于将频率较低的单词更频繁地绘制出来。

参考文献

[A] (2005)-对比估计:针对未标记的数据训练对数线性模型

[B] (2010)-噪声对比估算:非标准化统计模型的新估算原理

[C] (2008)-用于自然语言处理的统一架构:具有多任务学习的深度神经网络

[D] (2012)-一种训练神经概率语言模型的快速简单算法

[E] (2013)-通过噪声对比估计有效地学习单词嵌入


答案基于我的一些较早的笔记-我希望它们是正确的:)


2
您提到了"in Word2Vec, the words for the negative samples (used for the corrupted pairs) are drawn from a specially designed distribution, which favours less frequent words to be drawn more often"。我想知道这是正确的吗?因为其他一些消息来源说,更频繁的单词被采样为否定样本。Essentially, the probability for selecting a word as a negative sample is related to its frequency, with more frequent words being more likely to be selected as negative samples.
泰勒傲来国主


顺便说一句,从高频率或低频率单词中选择负面样本的原因是什么?从非上下文词中随机抽样是否不够好?
泰勒傲来国主

@Tyler傲来国主据我了解,频率较低的单词由于其内容特定于上下文,因此它们的信息量更大。频率更高的单词倾向于与更多的其他单词相关联(以极端示例“ the”为例)。这使得不常出现的单词“更难”正确(您学习得更快),并且还减少了选择实际上不是负样本的单词的机会(由于使用了大型语料库,因此检查该单词很昂贵并且经常被遗漏)。
drevicko

@drevicko频率较低的单词信息量较大,但频率较低的单词为负样本的信息量较小。根据信息论,概率越大,自我信息越小。频繁出现的单词是给定目标单词的否定样本的事件应具有较小的概率,这意味着较高的信息量。
泰勒傲来国主
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.