当您将一组身份可视化为 Fisher度量张量中的流形时,KL具有深层含义,它给出了两个“接近”分布之间的测地距离。正式地:
ds2=2KL(p(x,θ),p(x,θ+dθ))
以下几行在这里详细解释了这种简单的数学公式的含义。
Fisher指标的定义。
考虑一个参数化的概率分布族(由R n的密度给出),其中x是随机变量,而theta是R p中的参数。你们可能都知道,费舍尔信息矩阵F = (F iD=(f(x,θ))RnxRp为F=(Fij)
Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]
使用这种表示法,是黎曼流形,而F (θ )是黎曼度量张量。(此指标的兴趣由cramer Rao下界定理给出)DF(θ)
您可能会说...好的数学抽象概念,但KL在哪里?
这不是数学上的抽象,如果您真的可以将参数化密度想象为曲线(而不是无限维空间的子集)和F 11p=1F11连接到该曲线的曲率...(请参见Bradley Efron的论文http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282)
几何答案点的一部分和/你的问题:的平方距离两者之间的(接近)的分布p (X ,θ )和p (X ,θ + d θ )在歧管(认为在测地距离的两点接近的地球,它与地球的曲率有关)由二次形式给出:ds2p(x,θ)p(x,θ+dθ)
ds2=∑Fijdθidθj
并且已知是Kullback Leibler Divergence的两倍:
ds2=2KL(p(x,θ),p(x,θ+dθ))
如果您想了解更多有关此的信息,建议您阅读Amari的文章,
网址为http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779
(我认为Amari还有一本书统计中的黎曼几何,但我不记得这个名字了)