从我所看到的,(二阶)Kneser-Ney平滑公式在某种程度上给定为
P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)
归一化因子为λ(wn−1)
λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)
和单词w_n的延续概率Pcont(wn)wn
Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)
其中N1+(∙w)是在以下单词中看到的上下文数w,或更简单地,是在给定单词w之前的不同单词\ bullet的数量。据我了解,该公式可以递归应用。∙w
现在,对于不同的n-gram长度,此方法可以很好地处理未知上下文中的已知单词,但是无法解释的是当词典单词超出单词时该怎么办。我尝试按照此示例进行说明,该示例指出在unigram的递归步骤中,Pcont(/)=P0KN(/)=1V。然后,文档使用这两个引号Chen和Goodman来证明上述公式为P1KN(w)=Pcont(w)。
我看不出在存在未知单词w = \ text {unknown}的情况下它是如何工作的w=unknown。在这些情况下,Pcont(unknown)=0something因为显然,未知词对训练集没有任何作用。同样,n-gram的计数将为C(wn−1,unknown)=0。
此外,如果遇到未知单词序列(例如,OOD单词的三字母组合),整个\ sum_ {w'} C \ left(w_ {n-1},w'\ right)∑w′C(wn−1,w′)项可能为零。
我想念什么?