交叉熵损失函数的不同定义

12

我从使用Neuronetworksanddeeplearning点com教程开始学习神经网络。特别是在第三章中，有一节关于交叉熵函数，并将交叉熵损失定义为：

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

但是，阅读Tensorflow简介后，交叉熵损失定义为：

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$ （使用与上面相同的符号时）

然后四处搜寻以查找发生了什么事情，我发现了另一组注释：（https://cs231n.github.io/linear-classify/#softmax-classifier），它使用了完全不同的交叉熵损失定义，尽管这时间用于softmax分类器，而不是神经网络。

有人可以告诉我这是怎么回事吗？为什么会有差异。人们将交叉熵损失定义为什么？是否有一些总体原则？

neural-networks loss-functions softmax cross-entropy

— 雷金纳德
source

与此密切相关：stats.stackexchange.com/questions/260505/...

— Sycorax说恢复莫妮卡

18

这三个定义基本相同。

C = - \frac{1个}{ñ} \sum_{X} \sum_{Ĵ} （ ÿ_{Ĵ} \ln {一种}_{Ĵ} ） 。

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

$j=2$

C = - \frac{1个}{ñ} \sum_{X} （ ÿ_{1个} \ln {一种}_{1个} + ÿ_{2} \ln {一种}_{2} ）

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1个}{ñ} \sum_{X} （ ÿ_{1个} \ln {一种}_{1个} + （ 1个 - ÿ_{1个} ） \ln （ 1个 - {一种}_{1个} ） ）

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$

$y$ $y_k$

C_{X} = - \sum_{Ĵ} （ ÿ_{Ĵ} \ln {一种}_{Ĵ} ） = - （ 0 + 0 + 。 。 。 + ÿ_{ķ} \ln {一种}_{ķ} ） = - \ln {一种}_{ķ} 。

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

C_{X} = - \ln （ {一种}_{ķ} ） = - \ln （ \frac{Ë^{F_{ķ}}}{\sum_{Ĵ} Ë^{F_{Ĵ}}} ） 。

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

— Dontloo
source

0

在第三章中，方程式（63）是应用于多个S型曲线（可能不等于1）的交叉熵，而在Tensoflow简介中，交叉熵是在softmax输出层上计算的。

正如dontloo所解释的，两个公式在两个类别上基本上是等效的，但在考虑两个以上类别时却不是。使用SoftMax有意义的独家类多类（即那些可能正时，有每个样品只有一个标签，其允许标签中的所述一个热编码），而（多个）S形可以用来描述一个多标记问题（即，与样品几个班级）。

也请参见其他答案。

— 下维
source