为什么KL分歧是非负的?


18

KL散度为何非负?

从信息论的角度,我有这样一个直观的理解:

假设有两个合奏和,它们由用标记的同一组元素组成。和分别是合奏和上不同的概率分布。B x p x q x A BABxp(x)q(x)AB

从信息论的角度来看,log2(P(x))是记录集合A的元素所需的最少比特数。使得期望 Σ X ë Ñ 小号Ë b ë - p X LN p X 可以被解释为至少多少位,我们需要用于记录中的一个元素平均。xA

xensemblep(x)ln(p(x))
A

由于此公式对我们平均所需的位设置了下限,因此对于带来不同概率分布q x 的不同集合,它为每个元素x给出的界肯定不会是由p x )给出,这意味着采用期望值, 该平均长度肯定会大于前一个,这导致xBq(x)xp(x)

xensemblep(x)ln(q(x))

因为pxqx不同,所以 我在这里不做
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

这是我的直觉理解,是否有一种纯粹的数学方法证明KL散度为非负数?该问题可以表述为:

给出q X 都为正实上线,和+ - p X d X = 1+ - q X d X = 1。证明p(x)q(x)+p(x)dx=1+q(x)dx=1为非负数。

+p(x)lnp(x)q(x)

如何证明呢?还是可以在没有额外条件的情况下证明这一点?


1
如果您了解Fano不等式的证明,则很容易得出相对熵的非负性。
Lerner Zhang

Answers:


30

证明1:

首先要注意为所有> 0lnaa1a>0

现在,我们将证明,这意味着d ķ 大号p | | q 0DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

ln

xp(x)log2p(x)xp(x)log2q(x)

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

我之所以不将其作为单独的证明是因为,如果您要让我证明吉布斯不等式,我将不得不从KL散度的非负性开始,并从顶部进行同样的证明。


i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Then we can show that DKL(p||q)0:

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

where we have used the Log sum inequality at (b).


Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

where at (c) we have used Jensen's inequality and the fact that log is a concave function.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.