Fisher度量与相对熵之间的联系


20

有人能以纯粹的数学严格方式证明 Fisher信息量度与相对熵(或KL散度)之间的以下联系吗?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
其中a=(a1,,an),da=(da1,,dan)
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
gi,jdaidaj:=i,jgi,jdaidaj是爱因斯坦求和约定。

我在John Baez的漂亮博客中找到了上述内容,Vasileios Anagnostopoulos在评论中谈到了这一点。


1
亲爱的库玛拉:澄清一下,这将有助于更好地解释您的表示法,尤其是g_ {i,j}的含义gi,j。另外,我认为您的表达式在显示方程式右侧的第一项前面缺少1/2的常数1/2。注意,Kullback自己称为散度(使用符号J(,))是所谓的KL散度的对称形式,即J(p,q)=D(pq)+D(qp)。在Kullback的著作中 KL散度记为I(\ cdot,\ cdot)I(,)。这也解释了1/2的因数1/2。干杯。
红衣主教

Answers:


19

1946年,地球物理学家和贝叶斯统计学家Harold Jeffreys介绍了我们今天称为Kullback-Leibler散度的方法,发现对于两个“无限接近”的分布(希望数学SE的人看不到这一点;-),我们可以编写它们的Kullback-Leibler散度为二次形式,其系数由Fisher信息矩阵的元素给定。他将这种二次形式解释为黎曼流形长度的元素,费舍尔信息起着黎曼度量的作用。通过统计模型的这种几何化,他推导出了Jeffreys的先验信息,它是由黎曼度量自然诱发的度量,尽管一般而言,它不是有限度量,但该度量可以解释为流形上的内在均匀分布。

要编写严格的证明,您需要找出所有正则条件,并注意泰勒展开式中误差项的顺序。这是论点的简要概述。

两个密度和之间对称的Kullback-Leibler散度定义为fg

D[f,g]=(f(x)g(x))log(f(x)g(x))dx.

如果我们有一组由参数化的密度,则θ=(θ1,,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
其中。引入符号 一些简单的代数给出 使用泰勒展开式的自然对数,我们有 Δθ=(Δθ1,,Δθk)
Δp(xθ)=p(xθ)p(xθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
因此 但是 因此 其中
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)i=1kp(xθ)θiΔθi=i=1klogp(xθ)θiΔθi.
D[p(θ),p(θ+Δθ)]i,j=1kgijΔθiΔθj,
gij=logp(xθ)θilogp(xθ)θjp(xθ)dx.

这是原始文件:

杰弗里斯(1946)。估计问题中先验概率的不变形式。程序 皇家社会。伦敦,A系列,186,453–461。


1
非常感谢您的出色写作。这将是很好,如果你可以帮助这个为好。
库马拉

是的,你说得对。我必须走出这个“抽象陷阱”。
库马拉

@zen您在积分下使用对数的泰勒展开式,为什么这样有效?
Sus20200 '16

1
从对称的KL散度开始,而不是标准KL散度,这似乎至关重要。维基百科文章没有提及对称版本,因此可能不正确。en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Surgical Commander

11

常规(非对称)KL散度的证明

Zen的答案使用对称的KL散度,但结果也适用于通常的形式,因为它对于无限相似的紧密分布变得对称。

这是由标量参数化的离散分布的证明(因为我很懒),但是可以很容易地将其重写为连续分布或参数向量:θ

D(pθ,pθ+dθ)=pθlogpθpθlogpθ+dθ .
泰勒展开最后一项: 假设一些规律性,我使用了两个结果:
=pθlogpθpθlogpθ= 0dθpθddθlogpθ= 0 12dθ2pθd2dθ2logpθ=pθ(ddθlogpθ)2 +O(dθ3)=12dθ2pθ(ddθlogpθ)2Fisher information+O(dθ3).
:pθddθlogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ(1pθdpθdθ)2]=d2pθdθ2pθ(1pθdpθdθ)2=d2dθ2pθ= 0pθ(ddθlogpθ)2.

4

您可以在以下论文的方程式(3)中找到类似的关系(对于一维参数)

D. Guo(2009),相对熵和得分函数:通过任意加性扰动产生的新的信息-估计关系Proc.Natl.Acad.Sci.USA90:4877-77。IEEE信息理论国际研讨会,814–818。(稳定链接)。

作者指的是

S. Kullback,信息理论与统计学。纽约:多佛,1968年。

为了证明这一结果。


1
该论文的等式(3)的多元版本已在第27-28页引用的Kullback文本中得到证明。OP的问题似乎丢失了常数。:)1/2
红衣主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.