3
“交叉熵”的定义和起源
在没有引用来源的情况下,维基百科将离散分布PPP和的交叉熵定义问问Q为 H×(P; 问)= - ΣXp (x )日志q(x )。H×(P;问)=-∑Xp(X)日志q(X)。\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} 谁是第一个开始使用此数量的人?谁发明了这个名词?我看了看: JE Shore和RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息理论,IEEE Transactions 26号 1,第26-37页,1980年1月。 我跟随他们的介绍 A. Wehrl,“熵的一般性质”,《现代物理学》评论,第1卷。50,不。》,第2卷,第221-260页,1978年4月。 谁从不使用该术语。 也没有 S. Kullback和R. Leibler,“关于信息和充分性”,《数学统计年鉴》,第1卷。22号 1卷,第79-86页,1951年。 我看着 TM Cover和JA Thomas,信息论要素(电信和信号处理中的Wiley系列)。Wiley-Interscience,2006年。 和 I. Good,“假设公式,尤其是多维列联表的最大熵”,《数学统计年鉴》,第1卷。34号 3,第911-934页,1963年。 但是这两篇论文都将交叉熵定义为KL散度的同义词。 原始纸 CE Shannon,“通信的数学理论”,贝尔系统技术杂志,第1卷。1948年2月27日。 没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“一个源的熵与其在限制于相同符号的情况下可能具有的最大值之比”)。 最后,我看了Tribus的一些旧书和论文。 有谁知道上面的等式叫什么,谁发明了它或对其进行了很好的介绍?