谁创造了“经验熵”一词?


9

我知道Shannon的熵工作,但是最近我研究了简洁的数据结构,其中经验熵经常用作存储分析的一部分。

香农将离散信息源生成的信息的熵定义为,其中是事件发生的概率,例如生成的特定字符,并且可能的事件。i=1kpilogpipiik

正如MCH在评论中指出的,经验熵是这些事件的经验分布的熵,因此由其中,是事件的观察到的发生次数和是观察到的事件的总数。这称为零阶经验熵。香农的条件熵概念具有类似的高阶经验版本。i=1kninlogninniin

香农没有使用“经验熵”这一术语,尽管他确实值得这个概念一些称赞。谁首先使用这个想法,谁首先使用(非常合逻辑的)名称经验熵来描述它?


“为每个字符串逐点定义”听起来像是Kolmogorov的复杂性:这是您在指的是什么?如果不是,您可以指向定义它的链接,还是更好地在问题本身中提供定义?
Suresh Venkat 2013年

1
之所以这样称呼,是因为经验熵是序列的经验分布的熵。
Mahdi Cheraghchi 2013年

@SureshVenkat我试图阐述这个问题。
删除了用户

1
看看Kosaraju S. Rao,Manzini G.,“用Lempel-Ziv算法压缩低熵字符串”(1998年)。他们使用“ 所谓的经验熵 ” 分析了Lempel-Ziv算法的性能。
Marzio De Biasi 2013年

2
注意,“经验分布”实际上是给定频率计数集的ML分布。所以我想知道这是否可以追溯到贝叶斯。甚至拉普拉斯(Laplace)都在思考根据经验计数来定义分布的问题。
Suresh Venkat 2013年

Answers:


3

我对像您这样的“经验熵”感兴趣,而我发现的最早的论文是像用户“ Marzio De Biasi”一样在Kosaraju中发表的。

但是在我看来,“经验熵”的真正定义是在后来通过概括以前的概念而得出的:

  1. Travis Gagie撰写的“大字母和不可压缩性”(2008年)
  2. Paul MBVitányi的“经验熵”(2011年)

Gagie将第阶经验熵的定义改为: k

  • Hk(w)=1|w|minQ{log1P(Q=w)}

其中是阶马尔可夫过程。他还表明,此定义等同于先前的定义。 Vitányi的下一步是对过程的任意类(不仅是马尔可夫过程)进行概括:Qk

  • H(w|X)=minX{K(X)+H(X):|H(X)log1P(X=w)|isminimal!}

其中是允许处理的类别,而是Kolmogorov复杂度。 如果我们选择作为第阶马尔可夫过程的类,产生序列随机变量并忽略了Kolmogorov的复杂性,这也导致了Gagie的定义(乘以)。XK(X)
Xk|w||w|

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.