什么是经验熵?


19

在共同典型集合的定义中(在“信息论的元素”,第7.6章,第195页)中,我们使用

1nlogp(xn)
作为序列的经验熵,其中。我以前从未遇到过这种术语。根据书的索引,没有在任何地方明确定义它。np(xn)=i=1np(xi)

我的问题基本上是:为什么经验熵不是其中是经验分布?xp^(x)log(p^(x))p^(x)

这两个公式之间最有趣的区别和相似之处是什么?(就他们共享/不共享的属性而言)。


这两个表达式在代数上不相等吗?
ub

1
@whuber:不,我相信它们的数量不同,用途不同。注意,第一个使用假定先验已知的真实度量。第二个没有。p
主教2012年

3
前者关注的是熵随时间的累积以及如何与系统的真实熵进行比较。SLLN和CLT可以很好地说明其行为。第二个问题涉及从数据估计熵,它的某些属性也可以通过上述相同的两个工具获得。但是,尽管第一个不带偏见,但第二个不小于。如果有帮助,我可以填写一些详细信息。p
主教

1
@cardinal:如果您要提供以上评论作为答案(也许还解释一下SLLN和CLT是什么?-我不知道这些)我很乐意
投票

好的,我稍后会尝试发布更多内容。同时,SLLN =“大数的强定律”和CLT =“中央极限定理”。这些是相当标准的缩写,您可能会再次遇到。干杯。:)
主教

Answers:


16

如果数据,即,ñ从样品空间-序列X,经验点的概率为 pX = 1Xñ=X1个XññXXX。这里δXX是一个,如果X=X,否则为零。也就是说pX是相对频率X中所观察到的序列。该由经验点的概率给出的概率分布是 ħ p=-Σ

p^X=1个ñ|{一世X一世=X}|=1个ñ一世=1个ñδXX一世
XXδXX一世X一世=Xp^XX 后者同一性如下通过互换两个总和,并指出,ΣX X δXX日志 pX=日志 pX 由此我们看到, ^ h p=-1
Hp^=-XXp^X日志p^X=-XX1个ñ一世=1个ñδXX一世日志p^X=-1个ñ一世=1个ñ日志p^X一世
XXδXX一世日志p^X=日志p^X一世
pXÑ=Π ñ = 1个 pX和使用的术语从问题是这种的经验熵经验概率分布。正如@cardinal在评论中指出的,1
Hp^=-1个ñ日志p^Xñ
p^Xñ=一世=1个ñp^X一世是点概率为p的给定概率分布的经验熵。-1个ñ日志pXñp

3
(+1)这很好地说明了Cover和Thomas所说的熵的“奇怪的自指特征”。但是,我不确定答案是否(直接)解决了OP的明显顾虑。:)
主教

我知道@cardinal,答案只是很长的评论,以阐明这一点。我不想重复你的观点。
NRH 2012年

1
您应该不会感到难过或犹豫,发表自己的答案,包括扩大我的评论或其他评论。对于发布答案,我特别慢而且很不好,如果您或其他人发布的答案包含了我之前曾简要评论过的内容,我将永远不会冒犯。实际上,恰恰相反。干杯。
主教

7

熵是为概率分布定义的。当您没有一个数据,而只有一个数据,并且插入概率分布的幼稚估计量时,您将获得经验熵。如另一个答案所示,这对于离散(多项式)分布最简单,但对于其他分布,也可以通过装仓等方式完成。

经验熵的一个问题是它对于少量样本有偏倚。概率分布的简单估计显示出由于采样噪声而产生的额外变化。当然,可以使用更好的估计器,例如对多项式参数使用合适的先验,但是要真正做到无偏不易。

以上也适用于条件分布。另外,一切都与装仓(或内核化)有关,因此您实际上具有一种微分熵。


3
我们应该谨慎对待这里所说的经验熵。请注意,尽管所有样本量的插件估计量始终偏低,但随着样本量的增加,偏倚量会减小。不仅难以获得熵的无偏估计量,而且在一般情况下是不可能的。在过去的几年中,在这一领域进行了相当深入的研究,尤其是在神经科学文献中。实际上,存在许多负面结果。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.