在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么?


11

生成单词嵌入的一种方法如下mirror):

  1. 获得一个语料库,例如“我喜欢飞行。我喜欢NLP。我喜欢深度学习。”
  2. 从中建立单词共现矩阵:

在此处输入图片说明

  1. 在上执行SVD ,并保留U 的前列。Xķ

在此处输入图片说明

子矩阵每一行都是该行表示的单词的单词嵌入(行1 =“ I”,行2 =“ like”,…)。ü1个|V|1个ķ

在第2步和第3步之间,有时会应用逐点相互信息(例如A. Herbelot和EM Vecchi。2015。构建共享世界:映射分布到模型理论语义空间。)在2015年自然语言处理经验方法会议上的发言(葡萄牙里斯本)。

在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么?

Answers:


11

根据Dan Jurafsky和James H. Martin的书:

“但是,事实证明,简单的频率并不是单词之间关联的最佳度量。一个问题是原始频率非常偏斜,没有很大的区别。如果我们想知道杏和菠萝共享哪种类型的上下文,但不是通过数字和信息手段,我们就不会对诸如此类的单词进行很好的区分,因为它们经常出现在各种单词上,并且无法提供任何特定单词的信息。”

有时我们用积极的逐点相互信息代替这个原始频率:

PPMIwC=最大值日志2PwCPwPC0

PMI本身表明,与独立观察它们相比,观察到带有上下文词C的单词w有多少可能。在PPMI中,我们仅保持PMI为正值。让我们考虑一下PMI何时为+或-以及为什么我们只保留负值:

积极的PMI是什么意思?

  • PwCPwPC>1个

  • PwC>PwPC

  • 当和相互之间发生的次数大于单独发生时,例如踢和球时,就会发生这种情况。我们想保留这些!wC

负PMI是什么意思?

  • PwCPwPC<1个

  • PwC<PwPC

  • 这意味着和或它们之一倾向于单独出现!由于数据有限,它可能表明统计数据不可靠,否则它会显示不合情理的同现,例如“ the”和“ ball”。(大多数单词也都出现“ the”。)wC

PMI或特别是PPMI可以帮助我们通过信息的同时发生来捕捉此类情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.