关于连续词袋的问题


11

我在理解这句话时遇到了麻烦:

首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并为所有单词共享了投影层(而不仅仅是投影矩阵)。因此,所有单词都投影到同一位置(对它们的向量进行平均)。

什么是投影层与投影矩阵?说所有单词都投射到相同位置意味着什么?为什么这意味着它们的向量是平均的?

该句子是向量空间中单词表示有效估计的第3.1节的第一部分(Mikolov等,2013)

Answers:


6

图1澄清了一些事情。将给定大小的窗口中的所有单词向量相加,结果乘以(1 /窗口大小),然后馈入输出层。

投影矩阵表示一个完整的查找表,其中每个单词对应单个实值向量。投影层实际上是一个过程,需要一个单词(单词索引)并返回相应的向量。可以将它们连接起来(获取大小为k * n的输入,其中k为窗口大小,n为向量长度),或者像在CBOW模型中那样,仅将它们全部求和(获取大小为n的输入)。

在此处输入图片说明


首先,感谢您的回答。我仍然对投影矩阵和投影层之间的区别感到困惑。他们看起来一样。
user70394 2015年

@ user70394是的,实际上我发现术语有些混乱。基本上任何NN层都是将输入映射到输出的功能。投影层使用投影矩阵中的权重执行此操作,但不是矩阵本身。给定相同的矩阵,则可以定义许多不同的函数。实际上,在使用CBOW的情况下,我们可能会说我们具有带时间延迟的投影层,其后是求和层。在RNNLM模型中,“投影层”实际上是递归隐藏层的一部分,它将投影矩阵的权重与递归权重结合起来以计算输出。
Denis Tarasov 2015年

1

当我浏览有关CBOW问题并偶然发现这一问题时,这是您(第一个)问题的另一种答案(“投影矩阵是什么?”),方法是查看NNLM模型(Bengio等, 2003):

Bengio et al。,2003,图1:神经体系结构:f(i,w_ {t-1},··,w_ {tn + 1))= g(i,C(w_ {t-1} ,···,C(w_ {t-n + 1}))其中,g是神经网络,C(i)是第i个单词特征向量。

tanhC(wi)Ctanh

补充一点,“只为记录”:真正令人兴奋的部分是米科洛夫解决该部分的方法,在Bengio的图像中您会看到短语“此处最多的计算”。Bengio 在后来的论文中尝试通过做一种称为分层 softmax(而不是仅使用softmax)的方法来减轻该问题(Morin&Bengio 2005)。但是米科洛夫以他的否定二次抽样策略又向前迈进了一步:他根本不计算所有“错误”单词的否定对数似然性(或者像Bengio在2005年所建议的那样,用霍夫曼编码),而只计算否定案例的一小部分样本,经过足够的计算和巧妙的概率分布,效果很好。当然,第二个甚至更大的贡献P(context|wt=i)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.