Kullback-Leibler散度分析


18

让我们考虑以下两个概率分布

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

我已经计算出等于 Kullback-Leibler散度,我想知道这个数字通常向我显示什么?通常,Kullback-Leibler散度告诉我一个概率分布与另一个概率分布有多远,对吗?它与熵术语相似,但是就数字而言,这意味着什么?如果我得到的结果是0.49,我可以说大约一个分布与另一个分布相差50%吗?0.492820258


请参阅此处的讨论这可能会有所帮助。
Glen_b-恢复莫妮卡2014年

您是否阅读了维基百科的文章?
Neil G

Answers:


42

Kullback-Leibler散度不适合度量,因为它不对称,并且不满足三角形不等式。因此,两个分布所扮演的“角色”是不同的,因此,根据所研究的现实世界现象来分配这些角色很重要。

当我们编写时(OP已使用以2为底的对数来计算表达式)

ķP||=一世日志2p一世/q一世p一世

我们将分布视为“目标分布”(通常认为是真实分布),可以使用Q分布对其进行近似。P

现在,

一世日志2p一世/q一世p一世=一世日志2p一世p一世-一世日志2q一世p一世=-HP-ËPln

其中是分布的香农熵P- ë PLN Q 被称为“的交叉熵PQ ” -也非对称的。HPP-ËPlnP

写作

ķP||=HP-HP

(在这里,由于交叉熵也很不对称,因此我们在交叉熵问题的表达式中写分布的顺序也使我们看到,KL-散度反映的是熵的增加,而不是不可避免的分布熵。。P

因此,,最好不要将KL-散度解释为分布之间的“距离度量”,而应将其视为熵增加的度量,这是由于使用了对真实分布的近似而不是真实分布本身

因此,我们处于信息论领域。听听大师们的声音(Cover&Thomas)

PHPHP+ķP||

同样明智的人说

...这不是分布之间的真实距离,因为它不对称且不满足三角形不等式。尽管如此,将相对熵视为分布之间的“距离”通常很有用。

但是,后一种方法主要在尝试最小化 KL散度以优化某些估计程序时有用。对于其本身的数值的解释,它是没有用的,应该首选“熵增加”方法。

对于问题的具体分布(始终使用以2为底的对数)

ķP||=0.49282HP=1.9486

P


极其有用且内容丰富的答案。
MadHatter

1

KL散度使用Q中的符号来度量代表P中的符号所需的信息损失。如果取值为0.49,这意味着平均而言,您可以使用Q中的两个对应符号对P中的两个符号进行编码,再加上一点额外信息。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.