信息论中心极限定理


11

信息理论CLT的最简单形式如下:

X1,X2,等于均值0和方差1。令fn为归一化总和n i = 1 X i的密度i=1nXinϕD(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

从某种意义上说,由于Pinsker不等式,这种收敛肯定比文献中公认的收敛,分布收敛和 -metric 收敛“更强”。即,KL散度的收敛意味着分布的收敛和距离的收敛。L1(|fnϕ|)22fnlog(fn/ϕ)L1

我想知道两件事。

  1. 结果什么?D(fnϕ)0

  2. 难道仅仅是因为在第三段指出,我们说收敛KL散度(的原因,即,)是强?D(fnϕ)0

注意:我前段时间在math.stackexchange中问了这个问题,但没有得到任何答案。


请提供重复的math.SE问题的链接。
主教

6
您的陈述似乎隐含地假设存在密度(就Lebesgue测度而言)。您可能对这篇简短而令人愉快的论文感兴趣:AR Barron(1986),熵和中心极限定理 Ann。Probab。,第14卷,没有。1,336-342。(开放访问)。
主教

2
我已经看过那篇论文了。在第1页的第二段中,他从信息理论的角度给出了动机。当时我还不太清楚。现在看起来还可以。但是,如果可以清楚地解释以下内容并发布作为答案,那将是很好的。“根据信息理论,当描述来自的样本的量化时,相对熵是基于正态分布的香农代码的冗余(平均描述长度过多)的最小上限”。我已在math.SE中删除了该问题,因为那里没有吸引任何人˚F ñDnfn
Ashok

@cardinal:谢谢你的好论文。
2012年

Answers:


5

该定理最重要的一点是,它建议在某些情况下使用极限定理,而通常的中心极限定理不适用。例如,在最大熵分布是某种非正态分布的情况下(例如,对于圆上的分布),它建议收敛到均匀分布。


我不明白 正如我已经提到的,KL散度的收敛意味着分布的收敛,知道吗?因此,无论信息理论上的CLT是否适用,通常的CLT都适用。此外,信息理论的CLT还假设为有限方差。还是我错过了什么?
Ashok

2
我的意思是,熵方法建议在极限不是正态分布的情况下极限可能是什么。极限就是一个最大熵的分布。
kjetil b halvorsen 2014年

3

环顾四周后,如果没有相对熵的收敛,我找不到分布收敛的任何示例,因此很难衡量该结果的“出色程度”。

在我看来,该结果仅描述了卷积积的相对熵。它通常被视为中心极限定理的另一种解释和证明框架,而且我不确定它在概率论中是否具有直接含义(即使在信息论中也是如此)。

根据信息理论和中心极限定理(第19页)。

热力学第二定律指出,热力学熵总是随时间增加,这意味着向吉布斯状态收敛。能量守恒意味着在这个时间演化过程中保持恒定,因此我们可以从一开始就知道哪个吉布斯状态将是极限。 我们将以同样的方式看待中心极限定理,即证明随着进行卷积,信息理论的熵增加到最大值,这意味着收敛到高斯。适当地归一化意味着在卷积过程中方差保持恒定,因此我们可以从一开始就知道哪个高斯将成为极限。E


2
有很多例子表明分布收敛而相对熵没有收敛-每当具有离散分布并且应用CLT时。Xi
马克·梅克斯

1

Ñ D(fnϕ)0确保仅仅由于KL散度的定义,随机变量和的分布与高斯密度之间就没有“距离” ,因此这就是证明本身。也许我误解了你的问题。n

关于您指定的第二点,您的段落中已作了答复。


1
正态(Lindberg)CLT指出样本均值在分布上收敛于正态RV。这意味着CDF逐点收敛到。这与OP的结果之间存在细微的度量理论差异,在此处您的答案中没有反映出来。Φ
AdamO
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.