从质上讲什么是交叉熵


15

这个问题以公式的形式给出了交叉熵的定量定义。

维基百科说,我正在寻找一个更概念上的定义:

在信息论中,如果使用编码方案是基于给定的概率分布q而不是“真实”分布p两个概率分布之间的交叉熵衡量从一组可能性中识别事件所需的平均位数。

我强调了让我难以理解的部分。我想要一个不错的定义,不需要对熵有单独的(预先存在的)理解。


1
您需要定义交叉熵,同时定义本身。直觉上如此...如果您在理解熵本身的概念时遇到困难,最好先理解基本概念,然后再理解其任何扩展。
Alecos Papadopoulos 2014年

1
我个人对熵有基本的了解(尽管自应用以来已将近12个月了)。但是,熵的定量表达应放在一小段中,而交叉熵则只需要一个。因此,我觉得可以同时包含这两个方面,这是一个很好的答案,因此读者无需参考其他地方即可理解。
Lyndon White

Answers:


23

要对以概率发生的事件进行编码,您至少需要log 21 / p 位(为什么?请参阅我的回答“对数在Shannon熵中的作用是什么?”)。plog2(1/p)

因此,在最佳编码中,编码消息的平均长度为 即原始概率分布的香农熵

ipilog2(1pi),

PQ

ipicode_length(i)=ipilog2(1qi),
ipilog2(1pi)

P=(12,12,0,0)

然后,如果我们想对其进行最佳编码,我们将A编码为0,将B编码为1,因此每个字母可获得1位编码消息。(这正是我们的概率分布的香农熵。)

P=1个41个41个41个4,则每个字母得到两位(例如,我们将A编码为00,B编码为01,C编码为10,D编码为11)。


很好的解释,谢谢。但是,维基百科的定义为sum_i [p_i * log(q_i)]。您使用1 / q_i给出了可能的状态数,因此log_2将其转换为编码单个符号所需的位数,但是Wikipedia页面所描述的内容略有不同。
redcalx15年

4
@locster在Wikipedia中,其总和前带有减号,相当于具有 1个/q一世,作为 log(1/qi)=log(qi).
Piotr Migdal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.