当涉及机器学习中的分类问题时,交叉熵和KL散度相等。正如问题中已经提到的,一般公式是:
H(p,q)=H(p)+DKL(p||q)
其中p是“真实”分布,q是估计分布,H(p,q)是交叉熵,H(p)是熵,D是Kullback-Leibler发散。
请注意,在机器学习中,p是真实情况类的一站式表示,即
p=[0,...,1,...,0]
这基本上是增量函数分布。但是增量函数的熵为零,因此KL散度简单地等于交叉熵。
实际上,即使H(p)不为0(例如,软标签),它也是固定的,对梯度没有贡献。在优化方面,简单地删除它并优化Kullback-Leibler散度是安全的。