如何解释微分熵?


15

我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法,在给定所用单词的概率分布的,当编码最佳时,对消息进行编码所需的期望位数(至少在熵定义中使用时)。log2

但是,当扩展到像这样的连续情况时我认为这种思维方式会,因为对于任何连续概率分布,(如果那是错误的,请纠正我),所以我想知道是否有一种很好的方式来思考连续熵的含义,就像离散情况一样。p X xp(x)=p(x)


您是否尝试阅读有关熵和微分熵的维基百科文章?
ttnphns

连续分布没有概率质量函数。在连续情况下的模拟是概率密度和积分超过x的整个范围内的积分等于1
迈克尔R. Chernick

@MichaelChernick我没有说它确实有一个,但是关于离散案例的思考方式依赖于一个事实,即总和等于
1。– dippynark

@ttnphns不,我没有,但我现在将它们检查出来,谢谢。
dippynark

另请参阅stats.stackexchange.com/questions/66186/… 了解香农熵。一些想法可以转移。
kjetil b halvorsen

Answers:


15

没有微分熵的解释会像熵一样有意义或有用。连续随机变量的问题在于它们的值通常具有0的概率,因此将需要无限数量的位进行编码。

如果看一下离散熵的极限通过测量间隔的概率,你结束了[nε,(n+1)ε[

p(x)log2p(x)dxlog2ε

而不是微分熵。从某种意义上说,这个数量更有意义,但是随着我们间隔的不断缩小,该数量将趋于无穷大。这是有道理的,因为我们将需要越来越多的位来编码随机值的值落在多个间隔中的哪个间隔中。

对于连续分布,更有用的量是相对熵(也是Kullback-Leibler散度)。对于离散分布:

DKL[P||Q]=xP(x)log2P(x)Q(x).

它测量的是真实分布为时使用的额外位数,但是我们使用位数来编码。我们可以取相对熵的极限,得出PlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

因为将取消。对于连续分布,这对应于无限小的小仓的限制中使用的额外位数。对于连续分布和离散分布,这始终是非负的。log2ε

现在,我们可以将微分熵视为与非归一化密度之间的负相对熵,p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

它的解释是使用位来编码第个间隔所需的位数差异的位。即使前者是最佳选择,但此差异现在可能为负,因为正在作弊(通过不积分为1),因此平均分配的位数可能比理论上少。log2nε(n+1)εp(x)dxnlogελ

有关相对熵的详细介绍,请参见Sergio Verdu的演讲

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.