10 试图了解交叉熵和困惑之间的关系。通常对于模型M,Perplexity(M)= 2 ^ entropy(M)。这种关系是否适用于所有不同的n-gram,即unigram,bigram等? natural-language entropy perplexity — 玛格丽特 source 这实际上就是困惑的定义;所述件事是从中导出的;)ΠNi=11P(wi|w1,...wi−1)−−−−−−−−−−−−−√NΠi=1N1P(wi|w1,...wi−1)N — WavesWashSands
9 是的,困惑总是等于熵的幂的两倍。拥有哪种类型的模型,n-gram,unigram或神经网络都没有关系。 语言建模者喜欢困惑而不是仅仅使用熵的原因有很多。一个是,由于指数的原因,困惑的感觉“感觉”的改善比熵的等效改善更为实质。另一个是,在他们开始使用困惑之前,语言模型的复杂度是通过简单化的分支因子度量来报告的,该度量更类似于困惑而不是熵。 — 亚伦 source