“交叉熵”的定义和起源


15

在没有引用来源的情况下,维基百科离散分布P的交叉熵定义

H×P;=-XpX日志qX

谁是第一个开始使用此数量的人?谁发明了这个名词?我看了看:

JE Shore和RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息理论,IEEE Transactions 26号 1,第26-37页,1980年1月。

我跟随他们的介绍

A. Wehrl,“熵的一般性质”,《现代物理学》评论,第1卷。50,不。》,第2卷,第221-260页,1978年4月。

谁从不使用该术语。

也没有

S. Kullback和R. Leibler,“关于信息和充分性”,《数学统计年鉴》,第1卷。22号 1卷,第79-86页,1951年。

我看着

TM Cover和JA Thomas,信息论要素(电信和信号处理中的Wiley系列)。Wiley-Interscience,2006年。

I. Good,“假设公式,尤其是多维列联表的最大熵”,《数学统计年鉴》,第1卷。34号 3,第911-934页,1963年。

但是这两篇论文都将交叉熵定义为KL散度的同义词。

原始纸

CE Shannon,“通信的数学理论”,贝尔系统技术杂志,第1卷。1948年2月27日。

没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“一个源的熵与其在限制于相同符号的情况下可能具有的最大值之比”)。

最后,我看了Tribus的一些旧书和论文。

有谁知道上面的等式叫什么,谁发明了它或对其进行了很好的介绍?

Answers:


7

I1:2(E)2.22.4

编辑:

其他别名包括 Kullback-Leibler信息量度,相对信息量度,交叉熵,I散度和Kerridge不准确性


谢谢!我检查了这些参考文献,但是仍然很难找到术语“交叉熵”或匹配方程。如果您看过文章或书籍之一,请告诉我。
Neil G

1
您也可以在Google学术搜索中向后搜索具有特定别名的文章,这些文章在特定年份之前都已发布(例如,到1980年为止的交叉熵)。
Itamar 2012年

1
关于您最近的编辑,我对问题中给出的表格的历史很感兴趣。我已经注意到,早期的论文使用“交叉熵”来表示“ KL散度”。(请注意,有关Kullback的论文是我的问题。)
Neil G

抱歉,我错过了有关Kullback论文的问题
Itamar 2012年

4

感谢@Itamar的建议,我在以下地方找到了提及:

IJ Good,“信息论中的某些术语和符号”,独立外部评价的程序-C部分:专论,第1卷。103号 1956年3月,第3卷,第200-204页。

对我来说,找到一个很好的交叉熵表示法仍然非常有用。


2

对此表示感谢-背景文献的良好总结。IEEE在1980年发表的Shore and Johnson文章是一个不错的开始,但是@itamar指向1956年的Good专着的指针甚至更好。这个概念似乎来自于Shannon的著作,Kullback&Leibler在1951年的AMS注释中指出了该术语的当前用法。至于“交叉熵”一词的起源与人工神经网络有关,在1994年由GE.Hinton,P.Dayan,BJFrey和RM Neal于1994年发表的《科学》杂志上有一个术语这是“ Hemholtz机器”一词的早期使用-可能是第一个。复制网址:http : //elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf 在该论文“无监督神经网络的唤醒-睡眠算法”中,等式#5之前的注释说:“当有许多描述输入向量的替代方法时,可以设计一种利用编码方法的随机编码方案。然后,成本为:”(参见等式5的论文)“然后,第二项是识别权重分配给各种替代表示的分布的熵。在本文的后面,将等式#5重写为等式#8,最后一项描述为初始概率分布和后验概率分布之间的Kullback-Leibler散度。该论文指出:“因此,对于两个为d分配相等概率的生成模型,)本文仍然将这种特定算法的最小化过程描述为最小化Kullback-Leibler散度,但看起来“替代描述中的熵”一词可能简化为“交叉熵”。有关使用TensorFlow的交叉熵的数值示例,请参见此处的帖子,这很有帮助:)本文仍然将这种特定算法的最小化过程描述为最小化Kullback-Leibler散度,但看起来“替代描述中的熵”一词可能简化为“交叉熵”。有关使用TensorFlow的交叉熵的数值示例,请参见此处的帖子,这很有帮助: /programming/41990250/what-is-cross-entropy 注意,CE = 0.47965的解仅是通过采用自然数为0.619的概率得出。在上面的示例中,“一个热”编码的使用意味着在交叉熵求和中,由于与零值初始概率相乘,因此忽略了其他两个初始概率和后验概率。


+1这可能是正确的。因此,您是说1994年是交叉熵的现代定义的起源?
尼尔·G
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.