Kullback-Leibler散度不适合度量,因为它不对称,并且不满足三角形不等式。因此,两个分布所扮演的“角色”是不同的,因此,根据所研究的现实世界现象来分配这些角色很重要。
当我们编写时(OP已使用以2为底的对数来计算表达式)
ķ(P| | Q)= ∑一世日志2(p一世/ q一世)p一世
我们将分布视为“目标分布”(通常认为是真实分布),可以使用Q分布对其进行近似。P问
现在,
∑一世日志2(p一世/ q一世)p一世= ∑一世日志2(p一世)p一世− ∑一世日志2(q一世)p一世= - 高(P)- ËP(ln(Q ))
其中是分布的香农熵P和- ë P(LN (Q ))被称为“的交叉熵P和Q ” -也非对称的。H(P)P− EP(ln(Q ))P问
写作
ķ(P| | Q)=高(P,Q )− H(P)
(在这里,由于交叉熵也很不对称,因此我们在交叉熵问题的表达式中写分布的顺序也使我们看到,KL-散度反映的是熵的增加,而不是不可避免的分布熵。。P
因此,不,最好不要将KL-散度解释为分布之间的“距离度量”,而应将其视为熵增加的度量,这是由于使用了对真实分布的近似而不是真实分布本身。
因此,我们处于信息论领域。听听大师们的声音(Cover&Thomas)
PH(P)问H(P)+ K(P| | 问)
同样明智的人说
...这不是分布之间的真实距离,因为它不对称且不满足三角形不等式。尽管如此,将相对熵视为分布之间的“距离”通常很有用。
但是,后一种方法主要在尝试最小化 KL散度以优化某些估计程序时有用。对于其本身的数值的解释,它是没有用的,应该首选“熵增加”方法。
对于问题的具体分布(始终使用以2为底的对数)
ķ(P| | Q)=0.49282,H(P)= 1.9486
问P