word2vec中的交叉熵损失的导数

我正在尝试通过CS224D斯坦福大学在线课程材料的第一个问题集解决问题，而我对问题3A遇到一些问题：当使用带有softmax预测函数和交叉熵损失函数的跳过语法word2vec模型时，我们想要计算相对于预测单词向量的梯度。所以给定softmax函数：

$\hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}$

和交叉熵函数：

$CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k})$

我们需要计算 $\frac{\partial{CE}}{\partial{\hat{r}}}$

我的步骤如下：

$CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})})$

$= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

现在给定是一个热向量，而我是正确的类： $w_k$

$CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$

这是正确的还是可以进一步简化？我想尝试确保自己走在正确的轨道上，因为问题集解决方案未在线发布。另外，正确完成书面作业对正确完成编程作业很重要。

machine-learning self-study word2vec

— ushi
source

请在问题中添加自学标记

— Dawny33

第一个日志标识的第二个减号应为加号。试图为您修复它，但编辑内容至少应为6个字符：\

— FatalMojo 2015年

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \frac{1}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r}) w_{j}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$ can be rewritten as

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{j}^{| V |} (\frac{\exp (w_{j}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{j})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{j}^{|V|} \left( \frac{ \exp(w_j^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_j \right)$ note, the sums are both indexed by j but it really should be 2 different variables. This would be more appropriate

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} (\frac{\exp (w_{x}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{x})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \left( \frac{ \exp(w_x^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_x \right)$ which translates to

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} Pr (w o r d_{x} ∣ \hat{r}, w) \cdot w_{x}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \Pr(word_x\mid\hat{r}, w) \cdot w_x$

— FatalMojo
source

相关的，他在第2讲@ 38:00中详细讨论了该推导

— FatalMojo 2015年

为什么要用不同的变量来索引总和？

— Yamaneko

只是为了避免混乱。从数学上来说，它的含义是相同的，但是在添加新总和时更改索引标签是一种很好的做法。

— FatalMojo 2015年