我在理解这句话时遇到了麻烦:
首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并为所有单词共享了投影层(而不仅仅是投影矩阵)。因此,所有单词都投影到同一位置(对它们的向量进行平均)。
什么是投影层与投影矩阵?说所有单词都投射到相同位置意味着什么?为什么这意味着它们的向量是平均的?
该句子是向量空间中单词表示的有效估计的第3.1节的第一部分(Mikolov等,2013)。
我在理解这句话时遇到了麻烦:
首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并为所有单词共享了投影层(而不仅仅是投影矩阵)。因此,所有单词都投影到同一位置(对它们的向量进行平均)。
什么是投影层与投影矩阵?说所有单词都投射到相同位置意味着什么?为什么这意味着它们的向量是平均的?
该句子是向量空间中单词表示的有效估计的第3.1节的第一部分(Mikolov等,2013)。
Answers:
图1澄清了一些事情。将给定大小的窗口中的所有单词向量相加,结果乘以(1 /窗口大小),然后馈入输出层。
投影矩阵表示一个完整的查找表,其中每个单词对应单个实值向量。投影层实际上是一个过程,需要一个单词(单词索引)并返回相应的向量。可以将它们连接起来(获取大小为k * n的输入,其中k为窗口大小,n为向量长度),或者像在CBOW模型中那样,仅将它们全部求和(获取大小为n的输入)。
当我浏览有关CBOW问题并偶然发现这一问题时,这是您(第一个)问题的另一种答案(“投影层与矩阵是什么?”),方法是查看NNLM模型(Bengio等, 2003):
补充一点,“只为记录”:真正令人兴奋的部分是米科洛夫解决该部分的方法,在Bengio的图像中您会看到短语“此处最多的计算”。Bengio 在后来的论文中尝试通过做一种称为分层 softmax(而不是仅使用softmax)的方法来减轻该问题(Morin&Bengio 2005)。但是米科洛夫以他的否定二次抽样策略又向前迈进了一步:他根本不计算所有“错误”单词的否定对数似然性(或者像Bengio在2005年所建议的那样,用霍夫曼编码),而只计算否定案例的一小部分样本,经过足够的计算和巧妙的概率分布,效果很好。当然,第二个甚至更大的贡献