n元语法模型的困惑和交叉熵


10

试图了解交叉熵和困惑之间的关系。通常对于模型MPerplexity(M)= 2 ^ entropy(M)。这种关系是否适用于所有不同的n-gram,即unigram,bigram等?


这实际上就是困惑的定义;所述件事是从中导出的;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Answers:


9

是的,困惑总是等于熵的幂的两倍。拥有哪种类型的模型,n-gram,unigram或神经网络都没有关系。

语言建模者喜欢困惑而不是仅仅使用熵的原因有很多。一个是,由于指数的原因,困惑的感觉“感觉”的改善比熵的等效改善更为实质。另一个是,在他们开始使用困惑之前,语言模型的复杂度是通过简单化的分支因子度量来报告的,该度量更类似于困惑而不是熵。


1

略微修改同意@Aaron答案:

它并不总是等于熵的幂。实际上,它(以对数为基础)是熵的幂。如果您使用e作为基础,那么它将是熵。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.