Questions tagged «language-models»

3
在Kneser-Ney平滑中,如何处理看不见的单词?
从我所看到的,(二阶)Kneser-Ney平滑公式在某种程度上给定为 P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 归一化因子为λ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} 和单词w_n的延续概率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} 其中N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)是在以下单词中看到的上下文数www,或更简单地,是在给定单词w之前的不同单词\ bullet的数量。据我了解,该公式可以递归应用。∙∙\bulletwww 现在,对于不同的n-gram长度,此方法可以很好地处理未知上下文中的已知单词,但是无法解释的是当词典单词超出单词时该怎么办。我尝试按照此示例进行说明,该示例指出在unigram的递归步骤中,Pcont(/)=P0KN(/)=1VPcont(/)=PKN0(/)=1VP_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}。然后,文档使用这两个引号Chen和Goodman来证明上述公式为P1KN(w)=Pcont(w)PKN1(w)=Pcont(w)P^1_{KN}(w) = P_{cont}(w)。 …

1
在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么?
生成单词嵌入的一种方法如下(mirror): 获得一个语料库,例如“我喜欢飞行。我喜欢NLP。我喜欢深度学习。” 从中建立单词共现矩阵: 在上执行SVD ,并保留U 的前列。XXXķķk 子矩阵每一行都是该行表示的单词的单词嵌入(行1 =“ I”,行2 =“ like”,…)。ü1 : | V| ,1:kü1个:|V|,1个:ķU_{1:|V|,1:k} 在第2步和第3步之间,有时会应用逐点相互信息(例如A. Herbelot和EM Vecchi。2015。构建共享世界:映射分布到模型理论语义空间。)在2015年自然语言处理经验方法会议上的发言(葡萄牙里斯本)。 在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么?

2
关于连续词袋的问题
我在理解这句话时遇到了麻烦: 首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并为所有单词共享了投影层(而不仅仅是投影矩阵)。因此,所有单词都投影到同一位置(对它们的向量进行平均)。 什么是投影层与投影矩阵?说所有单词都投射到相同位置意味着什么?为什么这意味着它们的向量是平均的? 该句子是向量空间中单词表示的有效估计的第3.1节的第一部分(Mikolov等,2013)。

3
关于使用bigram(N-gram)模型构建文本文档的特征向量
用于文本挖掘的特征构造的传统方法是词袋方法,并且可以使用tf-idf进行增强,以建立表征给定文本文档的特征向量。目前,我正在尝试使用Bi-gram语言模型或(N-gram)来构建特征向量,但还不太清楚该怎么做?我们是否可以仅遵循单词袋的方法,即以二元语法代替单词来计算频率计数,并使用tf-idf加权方案对其进行增强?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.