从质上讲什么是交叉熵

这个问题以公式的形式给出了交叉熵的定量定义。

维基百科说，我正在寻找一个更概念上的定义：

在信息论中，如果使用编码方案是基于给定的概率分布q而不是“真实”分布p，则两个概率分布之间的交叉熵衡量从一组可能性中识别事件所需的平均位数。。

我强调了让我难以理解的部分。我想要一个不错的定义，不需要对熵有单独的（预先存在的）理解。

entropy information-theory

— 林登·怀特
source

您需要定义交叉熵，同时定义熵本身。直觉上如此...如果您在理解熵本身的概念时遇到困难，最好先理解基本概念，然后再理解其任何扩展。

— Alecos Papadopoulos 2014年

我个人对熵有基本的了解（尽管自应用以来已将近12个月了）。但是，熵的定量表达应放在一小段中，而交叉熵则只需要一个。因此，我觉得可以同时包含这两个方面，这是一个很好的答案，因此读者无需参考其他地方即可理解。

— Lyndon White

— HALVORSEN的Kjetil b

要对以概率发生的事件进行编码，您至少需要位（为什么？请参阅我的回答“对数在Shannon熵中的作用是什么？”）。 $p$ $\log_2(1/p)$

因此，在最佳编码中，编码消息的平均长度为即原始概率分布的香农熵。

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$

$P$ $Q$

\sum_{i} p_{i} code_length(i) = \sum_{i} p_{i} \log_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$

$P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$

然后，如果我们想对其进行最佳编码，我们将A编码为0，将B编码为1，因此每个字母可获得1位编码消息。（这正是我们的概率分布的香农熵。）

$P$ $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$ ，则每个字母得到两位（例如，我们将A编码为00，B编码为01，C编码为10，D编码为11）。

— 皮格特·米格达（Piotr Migdal）
source

很好的解释，谢谢。但是，维基百科的定义为sum_i [p_i * log（q_i）]。您使用1 / q_i给出了可能的状态数，因此log_2将其转换为编码单个符号所需的位数，但是Wikipedia页面所描述的内容略有不同。

— redcalx15年

@locster在Wikipedia中，其总和前带有减号，相当于具有

1 / q_{i}

$1/q_i$ ，作为

\log (1 / q_{i}) = - \log (q_{i})

$\log(1/q_i)=-\log(q_i)$ .

— Piotr Migdal