Answers:
根据Dan Jurafsky和James H. Martin的书:
“但是,事实证明,简单的频率并不是单词之间关联的最佳度量。一个问题是原始频率非常偏斜,没有很大的区别。如果我们想知道杏和菠萝共享哪种类型的上下文,但不是通过数字和信息手段,我们就不会对诸如此类的单词进行很好的区分,因为它们经常出现在各种单词上,并且无法提供任何特定单词的信息。”
有时我们用积极的逐点相互信息代替这个原始频率:
PMI本身表明,与独立观察它们相比,观察到带有上下文词C的单词w有多少可能。在PPMI中,我们仅保持PMI为正值。让我们考虑一下PMI何时为+或-以及为什么我们只保留负值:
积极的PMI是什么意思?
当和相互之间发生的次数大于单独发生时,例如踢和球时,就会发生这种情况。我们想保留这些!
负PMI是什么意思?
这意味着和或它们之一倾向于单独出现!由于数据有限,它可能表明统计数据不可靠,否则它会显示不合情理的同现,例如“ the”和“ ball”。(大多数单词也都出现“ the”。)
PMI或特别是PPMI可以帮助我们通过信息的同时发生来捕捉此类情况。