没有信息论的Kullback-Leibler散度


23

经过对Cross Validated的大量拖延之后,我仍然觉得自己离信息理论领域之外的KL分歧越来越近了。对于具有数学背景的人来说,发现它更容易理解信息理论的解释是很奇怪的。

从信息理论背景概述我的理解:如果我们有一个随机变量且结果数量有限,则存在一种最佳编码,该编码可使我们与其他人以平均最短消息进行交流(我发现这最容易图片按位表示)。如果使用最佳编码,则传达结果所需的消息的期望长度由。如果您使用次优编码,则KL散度平均会告诉我们我们的消息会持续多长时间。

αpαlog2(pα)

我喜欢这种解释,因为它很直观地处理了KL散度的不对称性。如果我们有两个不同的系统,即两个加载不同的硬币,它们将具有不同的最佳编码。我并没有本能地感觉到,将第二个系统的编码用于第一个系统与将第一个系统的编码用于第二个系统“同样糟糕”。现在,不用经历如何说服自己的思考过程,我对当对使用的编码时,会给您这个“额外的消息长度” 。

αpα(log2qαlog2pα)
qp

但是,大多数KL散度的定义(包括Wikipedia)随后做出了这样的陈述(如果将离散点保留下来,以便可以将其与信息理论的解释相比较,后者在离散项下效果更好,因为位是离散的)。分布,然后KL提供一些“它们有多不同”的度量。我还没有看到关于这两个概念如何关联的单一解释。我似乎记得在他的推理书中,戴夫·麦凯(Dave Mackay)提出了关于数据压缩和推理基本上是同一件事的观点,而且我怀疑我的问题确实与此有关。

不管是不是,我想到的问题都是关于推理的问题。(保持离散),如果我们有两个放射性样品,并且我们知道其中一个是具有已知放射性的某种材料(这是可疑的物理学,但我们假装宇宙像那样工作),因此我们知道“真实”分布我们应该测量的放射性点击数应该是已知的泊松分布,是否建立两个样本的经验分布并将它们的KL散度与已知分布进行比较是否公平,并说较低的可能性更大?λ

避开可疑物理学,如果我知道两个样本是从同一分布中提取的,但我知道它们不是随机选择的,可以将其KL散度与已知的全局分布进行比较,使我感觉到样本的“偏差程度” ,相对于另一个而言?

最后,如果对以上问题的回答是肯定的,那为什么呢?是否可以仅从统计角度理解这些事情,而无需与信息理论建立任何(可能是脆弱的)联系?


1
在这里查看我的答案: stats.stackexchange.com/questions/188903/… 这并不涉及信息论
kjetil b halvorsen

1
KL分歧不是纯粹的信息理论概念吗?我知道它提供了贝叶斯先验和后验之间或诸如此类的东西之间的相互信息,而且我记得曾在Fenchel变换/共轭(大偏差理论)的背景下见过一次,但无论如何我都认为这是一个信息理论概念。
Chill2Macht

Answers:


23

有一种纯粹的统计方法可以解决Kullback-Leibler散度:从未知分布抽取样本 iid 并考虑相应的似然定义为 及其对数是 因此, 其中是和K_之间的Kullback-Leibler散度的有趣部分p ˚F = { p θX1,,Xnp大号θ | X 1... X Ñ= Ñ Π= 1个 p θX θ | X 1... X Ñ= Ñ Σ= 1个日志p θx 1

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
p θ p ħp θ | p DEF =日志{ p X / p θX }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp 日志{ p X }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
另一部分在那里的最小值[在 ] 等于零。θ ħp θ | p
log{p(x)}p(x)dx
θH(pθ|p)

将散度,信息论和统计推论联系起来的一本书是Rissanen 对参数最优估计,我在这里进行了回顾。


有可能看到一个数字示例吗?
保罗·乌萨克

好吧,我的意思是看到一些实际数字。理论是可爱的,但世界在数字上运转。没有使用实际数字的KL散度示例,因此我得出的结论是,这是一种没有可能应用的理论。OP讨论了以位为单位的消息长度和数据压缩。我指的是其中有很多位的任何示例……
Paul Uszak '16

2
@PaulUszak:如果我告诉您N(0,1)与N(1,1)分布之间的Kullaback-Leibler距离是1/2,这有什么帮助?
2013年

2
@西安:那个数字1/2和相应的似然比检验的功效之间一定有联系吗?
kjetil b halvorsen

7
+1重新评论线程:思维陷入僵局,认为任何无法简化为“位数”的概念都是无用的。
Whuber

8

这是对Kullback-Leibler差异的统计解释,大致取自IJ Good(证据权重:简要调查,Bayesian Statistics 2,1985年)。

证据的分量。

x1,x2,,xnf0H1H2H 1 = { f 1 } H 2 = { f 2 } f 0 f 1 f 2f0H1={f1}H2={f2}f0f1f2

证据重量的样品的为针对被定义为 它是一个简单的解释量,尤其是考虑了现有上的假设和。实际上,在这种情况下,后验对数为加上前验对数: 此数量还具有许多方便的属性,例如独立样本的加性: x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
Good为证据权重的使用提供了进一步的证明,并且也被Kullback和Leibler(在介绍KL散度的论文中)称为的信息,用于区分 ”。W(x)xH1H2

总之,给定样本,证据权重是一个具体的数字,旨在帮助您了解手头有多少证据。有些人甚至使用经验法则,例如“是有力的证据”(请注意,我不鼓励盲目使用此类表)。xW(x)W(x)>2

Kullback-Leibler分歧

现在,和之间的Kullback-Leibler散度是样本中证据预期权重。也就是说, f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

我们应该直觉想到的样本提供了有利的正面证据对,这确实是通过不平等反映 ħ 1 = { ˚F 1 } ħ 2 ë X ˚F 1 w ^ X 0。xf1H1={f1}H2

Exf1W(x)0.

1

我还没有看到关于这两个概念如何关联的单一解释。

我对信息理论了解不多,但这就是我的想法:当我听到信息论人士说“消息的长度”时,我的大脑就会说“惊讶”。惊喜是1.)随机的和2.)主观的。

1.)我的意思是“惊奇”只是使用一些分布随机变量的变换。Surprise定义为,这是是否有离散随机变量的定义。Xq(X)logq(X)

Surprise是一个随机变量,因此最终我们希望将其设为单个数字。2),当我说“主观的,”我的意思是你可以使用任何你想要的分布(),改造。但是,期望总是针对“真实”分布。这些可能相等也可能不相等。如果使用真变换,则具有,这就是熵。如果其他一些分布不等于,则得到,这就是交叉熵。请注意,如果使用错误的分配方式,总是会有更高的预期惊喜。qXppËp[-日志pX]qpËp[-日志qX]

我没有考虑“它们有什么不同”,而是考虑“使用错误的分发会增加预期的惊喜”。这全部来自对数的属性。

Ëp[日志pXqX]=Ëp[-日志qX]-Ëp[-日志pX]0。

编辑

回应:“您能否详细说明是“惊喜”的量度吗?仅此数量就显得毫无意义,因为在样本空间的线性变换下它甚至都不是不变的(我假设是pdf)”-日志qXq

首先,考虑一下它将值映射到什么。如果您有一个将某个值映射到,则。对于离散随机变量,概率为实现具有“惊喜”。XqX0-日志0=1个0

其次,是内射的,因此稀有值不会比稀有值少得到惊喜。-日志

对于连续随机变量,会出现负惊喜。我想这是一个缺点。qX>1个

Olivier似乎在暗示他的“证据权重”数量不属于我的属性,他称其为线性变换下的不变性(我承认我不完全理解样本空间对他的含义)。大概他在说如果,那么只要是连续的。显然由于雅可比行列式。XqXXÿ=一种X+bqXÿ-b/一种|1个/一种|X-日志qXX-日志qÿÿ

不过,我看不出这如何使数量“无意义”。实际上,我很难理解为什么在这种情况下不变性是理想的属性。规模可能很重要。在前面的一篇评论中,我提到了方差的示例,其中我们所期望的随机变量是。我们可以将其解释为“极端”。这个数量也遭受不变性的困扰,但是它并没有使人们对什么是差异的直觉变得毫无意义。X-ËX2

编辑2:看来我并不是唯一认为这是“惊喜”的人。从这里

可以将以为条件的数据的残差信息定义为(直到乘法常数)(Kullback和Leibler,1951; Burnham和Anderson,1998)可以解释为“惊奇”(Good,1956),对数罚分(Bernardo,1979)或不确定性的量度。ÿθ-2日志{pÿθ}


1
您能否详细说明是“惊喜”的量度?仅凭此数量似乎就没有意义,因为在样本空间的线性变换下它甚至不是不变的(我假设是pdf)。q-日志qXq
Olivier

1
令为变换,。由于是可逆的,因此对我而言,观察与观察相同:我可以轻松地将一个变换为另一个。为什么观察比观察更惊讶?(如果)则必须使用可逆变换的不变性以避免这种矛盾。T X = a X a 0 T T x x T x x - log q T X T x > log q Xx ŤŤX=一种X一种0ŤŤXXŤXX-日志qŤXŤX>-日志qXX
奥利维耶(Olivier)

@Olivier是的,这已经包含在我的编辑中。我没有看到矛盾。考虑方差,在这里您可以期望变换。您可以将此随机数量视为“极端”。但是您看不到我抱怨缺乏不变性X-Ë[X]2
泰勒(Taylor)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.