我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法,在给定所用单词的概率分布的,当编码最佳时,对消息进行编码所需的期望位数(至少在熵定义中使用时)。
但是,当扩展到像这样的连续情况时,我认为这种思维方式会,因为对于任何连续概率分布,(如果那是错误的,请纠正我),所以我想知道是否有一种很好的方式来思考连续熵的含义,就像离散情况一样。p (X )
我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法,在给定所用单词的概率分布的,当编码最佳时,对消息进行编码所需的期望位数(至少在熵定义中使用时)。
但是,当扩展到像这样的连续情况时,我认为这种思维方式会,因为对于任何连续概率分布,(如果那是错误的,请纠正我),所以我想知道是否有一种很好的方式来思考连续熵的含义,就像离散情况一样。p (X )
Answers:
没有微分熵的解释会像熵一样有意义或有用。连续随机变量的问题在于它们的值通常具有0的概率,因此将需要无限数量的位进行编码。
如果看一下离散熵的极限通过测量间隔的概率,你结束了
而不是微分熵。从某种意义上说,这个数量更有意义,但是随着我们间隔的不断缩小,该数量将趋于无穷大。这是有道理的,因为我们将需要越来越多的位来编码随机值的值落在多个间隔中的哪个间隔中。
对于连续分布,更有用的量是相对熵(也是Kullback-Leibler散度)。对于离散分布:
它测量的是真实分布为时使用的额外位数,但是我们使用位数来编码。我们可以取相对熵的极限,得出
因为将取消。对于连续分布,这对应于无限小的小仓的限制中使用的额外位数。对于连续分布和离散分布,这始终是非负的。
现在,我们可以将微分熵视为与非归一化密度之间的负相对熵,
它的解释是使用位来编码第个间隔所需的位数差异的位。即使前者是最佳选择,但此差异现在可能为负,因为正在作弊(通过不积分为1),因此平均分配的位数可能比理论上少。
有关相对熵的详细介绍,请参见Sergio Verdu的演讲。