5
神经网络中的交叉熵误差函数
在MNIST对于ML初学者中,他们将交叉熵定义为 Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) yiyiy_i是类别i的预测概率值iii,y′iyi′y_i'是该类别的真实概率。 问题1 yiyiy_i(在log(yi)log(yi)\log(y_i))可以为0 是否不是问题?当然,这意味着我们的分类器非常差。但是请考虑我们数据集中的错误,例如1标记为的“显而易见”错误3。它会崩溃吗?我们选择的模型(最后激活softmax)是否基本上不会为正确的类别给出概率0? 问题2 我了解到交叉熵定义为 Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))Hy′(y):=−∑i(yi′log(yi)+(1−yi′)log(1−yi))H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)}) 什么是正确的?您对这两个版本都有教科书参考吗?这些函数的特性如何不同(作为神经网络的误差函数)?