在Kneser-Ney平滑中,如何处理看不见的单词?
从我所看到的,(二阶)Kneser-Ney平滑公式在某种程度上给定为 P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 归一化因子为λ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} 和单词w_n的延续概率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} 其中N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)是在以下单词中看到的上下文数www,或更简单地,是在给定单词w之前的不同单词\ bullet的数量。据我了解,该公式可以递归应用。∙∙\bulletwww 现在,对于不同的n-gram长度,此方法可以很好地处理未知上下文中的已知单词,但是无法解释的是当词典单词超出单词时该怎么办。我尝试按照此示例进行说明,该示例指出在unigram的递归步骤中,Pcont(/)=P0KN(/)=1VPcont(/)=PKN0(/)=1VP_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}。然后,文档使用这两个引号Chen和Goodman来证明上述公式为P1KN(w)=Pcont(w)PKN1(w)=Pcont(w)P^1_{KN}(w) = P_{cont}(w)。 …