香农熵为0.922，三个不同的值

14

给定一串值 $AAAAAAAABC$ ，对数基数 $2$ 的Shannon熵为 $0.922$ 。据我了解，在基数 $2$ ，向上舍入的Shannon熵是二进制中代表单个值之一的最小位数。

摘自此维基百科页面上的介绍：

https://en.wikipedia.org/wiki/Entropy_%28information_theory%29

那么，如何用一位来表示三个值呢？ $A$ 可以是 $1$ ， $B$ 可以是 $0$ ; 但是你怎么代表 $C$ ？

先感谢您。

— 肖恩C
source

16

您计算出的熵并非真正针对特定字符串，而是针对随机符号源，该随机符号源以概率生成 $A$ $\tfrac{8}{10}$ 和 $B$ 和 $C$ 的可能性为 $\tfrac1{10}$ 每个个，连续符号之间没有相关性。计算出的这种分布的熵为 $0.922$ ，这意味着您平均无法使用每个字符少于 $0.922$ 位来表示从该分布生成的字符串。

开发可能要达到此速度的代码可能非常困难。^*例如，霍夫曼编码将分配代码 $0$ ， $10$ 和 $11$ 至 $A$ ， $B$ 和 $C$ 分别为平均 $1.2$ 每个字符的比特。尽管与每个字符两位的天真编码相比，它与熵相比还差很多，但仍然好得多。任何尝试进行更好编码的尝试都可能会利用这样一个事实，即即使连续运行十个 $A$ 也比单个更有可能（概率 $0.107$ ）。 $B$

^*事实证明，不难达到想要的程度–请参阅其他答案！

— 大卫·里希比
source

18

这是一种具体的编码，可以平均用不到1位表示每个符号：

首先，将输入字符串分成成对的连续字符（例如，AAAAAAAABC变为AA | AA | AA | AA | BC | BC）。然后编码AA为0，AB为100，AC为101，BA为110，CA为1110，BB为111100，BC为111101，CB为111110，CC为111111。 _{我不说，如果有一个奇怪会发生什么数量的符号，但您可以使用任意编码对最后一个符号进行编码，输入较长时并不重要。}

这是用于分配独立符号对的霍夫曼代码，对应于在Yuval答案中选择 $n = 2$ 。较大的 $n$ 会导致更好的代码（如他所言，将Shannon熵逼近极限）。

上面编码的每个符号对的平均位数为

\frac{8}{10} \cdot \frac{8}{10} \cdot 1 + 3 \cdot \frac{8}{10} \cdot \frac{1}{10} \cdot 3 + \frac{1}{10} \cdot \frac{8}{10} \cdot 4 + 4 \cdot \frac{1}{10} \cdot \frac{1}{10} \cdot 6 = 1.92

$\frac{8}{10} \cdot \frac{8}{10} \cdot 1 + 3 \cdot \frac{8}{10} \cdot \frac{1}{10} \cdot 3 + \frac{1}{10} \cdot \frac{8}{10} \cdot 4 + 4 \cdot \frac{1}{10} \cdot \frac{1}{10} \cdot 6 = 1.92$ 即

1.92 / 2 = 0.96

$1.92/2 = 0.96$ 每个符号的比特，而不是远离香农熵实际上这样一个简单的编码。

— 游牧型
source

13

让 $\mathcal{D}$ 是在随后的分布 $\{A,B,C\}$ ：如果 $X \sim \mathcal{D}$ 然后 $\Pr[X=A] = 4/5$ 和 $\Pr[X=B]=\Pr[X=C]=1/10$ 。

对于每个 $n$ 我们可以构建前缀码 $C_n\colon \{A,B,C\}^n \to \{0,1\}^*$ 使得

lim_{n \to \infty} \frac{E_{X_{1}, \dots, X_{n} \sim D} [C_{n} (X_{1}, \dots, X_{n})]}{n} = H (D) .

$\lim_{n\to\infty} \frac{\operatorname*{\mathbb{E}}_{X_1,\ldots,X_n \sim \mathcal{D}}[C_n(X_1,\ldots,X_n)]}{n} = H(\mathcal{D}).$

$\mathcal{D}$ $H(\mathcal{D}) \approx 0.922$ $A$

$A^8BC$

— Yuval Filmus
source