关于联合熵的直觉


9

我在建立关于联合熵的直觉上遇到困难。 =联合分布不确定性; =不确定性; =不确定性。HXÿpXÿH(X)px(x)H(Y)py(y)

如果H(X)高,则分布更加不确定,如果您知道这种分布的结果,则您可以获得更多信息!因此,H(X)也可以量化信息。

现在我们可以显示H(X,Y)H(X)+H(Y)

但是,如果您知道可以得到和那么从某种意义上说比和拥有更多的信息,所以不应该与p(x,y)有关的不确定性是否大于各个不确定性的总和?p(x,y)px(x)py(y)p(x,y)px(x)py(y)

Answers:


7

作为一般规则,附加信息永远不会增加熵,正式表示为:

H(X|Y)H(X)

平等是否成立 XY 是独立的,这意味着 H(X|Y)=H(X)

这个结果可以用来证明联合熵 HX1个X2Xñ一世=1个ñHX一世。为了说明这一点,考虑一个简单的案例HXÿ。根据链式,我们可以写出如下的连接熵

HXÿ=HX|ÿ+Hÿ

考虑不平等 HX|ÿ 从不增加变量的熵 X, 因此 HXÿHX+Hÿ。使用归纳法可以将这一结果推广到涉及两个以上变量的情况。

希望它有助于减少关于联合熵的歧义(或您的熵)!


4

香农熵还有另一种观点。想象一下,您想通过问题来猜测变量的具体价值是什么。为简单起见,假设该值只能采用八个不同的值01个8,而且所有可能性均相等。

最有效的方法是执行二进制搜索。首先,您问是否大于或小于4。然后将其与2或6进行比较,依此类推。总共您将不需要三个以上的问题(这是此具体分布的位数)。

我们可以对两个变量进行类比。如果它们不是独立的,那么了解其中一个的值可以帮助您(平均)更好地猜测下一个问题(这在omidi指出的结果中得到了反映)。因此,熵是较低的,除非它们是完全独立的,否则您需要独立地猜测它们的值。说熵较低(对于这个具体示例)意味着您平均需要减少的问题数量(即,您经常会做出很好的猜测)。


2

看来您是在想:“如果了解更多信息,那么未知则更多熵”。这不是正确的直觉,因为如果分布未知,我们甚至都不知道其熵。如果已知分布,则 熵将量化描述随机变量实现不确定性所需的信息量,该不确定性仍然未知(我们仅通过了解分布来了解围绕此不确定性的结构)。熵不能量化分布中“存在”的信息。相反:分布中包含的信息越多,描述不确定性所需的信息就越少,因此信息量越熵是。考虑均匀分布:它包含的信息很少,因为变量的所有可能值都是等概率的:因此,在具有有限支持的所有分布中,它具有最大的熵。

对于联合熵,您可能会这样认为:联合分布包含有关两个变量是否相关的信息,以及足以得出边际分布的信息。边际分布不包含有关两个随机变量是相关变量还是独立变量的信息。因此,联合分布具有更多信息,并为我们提供了有关所涉及的随机变量的较少不确定性:

分发中包含更多信息 变量周围的不确定性较小 描述这种不确定性所需的信息较少 熵少。


谢谢,这很清楚。我一直在想,分布中的相关性应该减少一对值的不确定性Xÿ 因此 HXÿ 必须小于 HX+Hÿ
2014年

是的,这就是本质。
Alecos Papadopoulos 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.