在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么？

生成单词嵌入的一种方法如下（mirror）：

子矩阵每一行都是该行表示的单词的单词嵌入（行1 =“ I”，行2 =“ like”，…）。 $U_{1:|V|,1:k}$

在第2步和第3步之间，有时会应用逐点相互信息（例如A. Herbelot和EM Vecchi。2015。构建共享世界：映射分布到模型理论语义空间。）在2015年自然语言处理经验方法会议上的发言（葡萄牙里斯本）。

natural-language svd mutual-information word-embeddings language-models

— 弗兰克·德农库特
source

“但是，事实证明，简单的频率并不是单词之间关联的最佳度量。一个问题是原始频率非常偏斜，没有很大的区别。如果我们想知道杏和菠萝共享哪种类型的上下文，但不是通过数字和信息手段，我们就不会对诸如此类的单词进行很好的区分，因为它们经常出现在各种单词上，并且无法提供任何特定单词的信息。”

有时我们用积极的逐点相互信息代替这个原始频率：

PPMI （ w ， C ） = 最大值 （ {日志}_{2} \frac{P （ w ， C ）}{P （ w ） P （ C ）} ， 0 ）

$\text{PPMI}(w,c) = \max{\left(\log_{2}{\frac{P(w,c)}{P(w)P(c)}},0\right)}$

PMI本身表明，与独立观察它们相比，观察到带有上下文词C的单词w有多少可能。在PPMI中，我们仅保持PMI为正值。让我们考虑一下PMI何时为+或-以及为什么我们只保留负值：

积极的PMI是什么意思？

负PMI是什么意思？

$\frac{P(w,c)}{(P(w)P(c))} < 1$
$P(w,c) < (P(w)P(c))$
这意味着和或它们之一倾向于单独出现！由于数据有限，它可能表明统计数据不可靠，否则它会显示不合情理的同现，例如“ the”和“ ball”。（大多数单词也都出现“ the”。） $w$ $c$

PMI或特别是PPMI可以帮助我们通过信息的同时发生来捕捉此类情况。

— 玛丽安·赫尔（Maryam Hnr）
source