为什么交叉熵成为分类标准损失函数而不是Kullbeck Leibler散度?


15

交叉熵等于KL发散加目标分布的熵。当两个分布相同时,KL等于零,这在我看来比目标分布的熵更直观,后者是匹配项上的交叉熵。

我并不是说其中有更多的信息,除了人的观点可能比肯定的观点更直观的发现零。当然,通常使用一种评估方法来真正了解分类的发生情况。但是,在KL上选择交叉熵是否具有历史性?

Answers:


12

当涉及机器学习中的分类问题时,交叉熵和KL散度相等。正如问题中已经提到的,一般公式是:

H(p,q)=H(p)+DKL(p||q)

其中p是“真实”分布,q是估计分布,H(p,q)是交叉熵,H(p)是熵,D是Kullback-Leibler发散。

请注意,在机器学习中,p是真实情况类的一站式表示,即

p=[0,...,1,...,0]

这基本上是增量函数分布。但是增量函数的熵为零,因此KL散度简单地等于交叉熵。

实际上,即使H(p)不为0(例如,软标签),它也是固定的,对梯度没有贡献。在优化方面,简单地删除它并优化Kullback-Leibler散度是安全的。


0

交叉熵是一个熵,而不是熵差。

概念化分类标准的一种更自然,更直观的方法是通过关系而不是定义。

H(P,Q)H(P)=DKL(PQ)=iP(i)logQ(i)P(i)

这是克劳德·香农(Claude Shannon)与约翰·冯·诺依曼(John von Neumann)在量子力学热力学和信息论之间发现的相似之处。熵不是绝对量。它是一个相对值,因此既不能计算熵,也不能计算交叉熵,但是它们的差异可能是上面的离散情况或下面的连续同级情况。

H(P,Q)H(P)=DKL(PQ)=p(x)logq(x)p(x)dx

H(...)=...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.