2
交叉熵损失函数的不同定义
我从使用Neuronetworksanddeeplearning点com教程开始学习神经网络。特别是在第三章中,有一节关于交叉熵函数,并将交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ+ (1 − yĴ)ln(1 − a大号Ĵ))C=-1个ñ∑X∑Ĵ(ÿĴln一种Ĵ大号+(1个-ÿĴ)ln(1个-一种Ĵ大号))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) 但是,阅读Tensorflow简介后,交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ)C=-1个ñ∑X∑Ĵ(ÿĴln一种Ĵ大号)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)(使用与上面相同的符号时) 然后四处搜寻以查找发生了什么事情,我发现了另一组注释:(https://cs231n.github.io/linear-classify/#softmax-classifier),它使用了完全不同的交叉熵损失定义,尽管这时间用于softmax分类器,而不是神经网络。 有人可以告诉我这是怎么回事吗?为什么会有差异。人们将交叉熵损失定义为什么?是否有一些总体原则?