关于KL分歧有疑问吗?


14

我正在用KL散度比较两个分布,这给我返回了一个非标准化数字,根据我对这一度量的了解,该数字是将一种假设转换为另一种假设所需的信息量。我有两个问题:

a)有没有一种方法可以量化KL散度,使其具有更有意义的解释,例如像效应大小或R ^ 2?任何形式的标准化?

b)在R中,使用KLdiv(flexmix软件包)时,可以设置“ esp”值(标准esp = 1e-4),该值将所有小于esp的点设置为某个标准,以提供数值稳定性。我一直在使用不同的esp值,并且对于我的数据集,我选择的数字越小,KL散度就越来越大。到底是怎么回事?我希望esp越小,结果应该越可靠,因为它们会让更多的“真实值”成为统计数据的一部分。没有?我必须更改esp,因为否则它不会计算统计信息,而只会在结果表中显示为NA ...

Answers:


10

假设给定n个由p或q生成的IID样本。您想确定是哪个发行版生成了它们。假设它们是由q生成的零假设。让a表示类型I错误的概率,错误地拒绝了原假设,而b表示类型II错误的概率。

那么对于大的n,类型I错误的概率至少为

经验值-ñ吉隆坡pq

换句话说,对于“最佳”决策过程,每个数据点的类型I的概率最多降低exp(KL(p,q))的倍数。II型错误最多下降的因数。exp(KL(q,p))

对于任意n,a和b如下相关

blogb1a+(1b)log1banKL(p,q)

aloga1b+(1a)log1abnKL(q,p)

如果我们以b和KL的形式将上界表示为a的下界并将b减小为0,即使对于小n ,结果似乎也接近“ exp(-n KL(q,p))”界

有关详细信息,请参见此处的第10 页以及Kullback的“信息理论与统计”(1978年)的第74-77页。

附带说明一下,此解释可用于激发 Fisher信息度量,因为对于在Fisher彼此之间的距离k(小k)的任何一对分布p,q,您需要相同数量的观察值来区分它们


1
+1我喜欢这种解释!您能否澄清“ e下方的p”?你为什么拿小e?您说“犯相反错误的概率是”上限还是精确概率?如果我还记得,这种方法归因于切尔诺夫(Chernoff),您是否有参考文献(我发现您的第一个参考文献并未阐明要点:))?
罗宾吉拉德

1
为什么我取小e ...嗯...这就是Balasubramanian的论文所做的,但是现在,回到库尔巴克,看来他的界对任何e都成立,并且他也对有限n给出了界,让我更新答案
Yaroslav Bulatov

好的,我们不需要小e(现在称为b,类型II错误)就可以保持小,但是b = 0是简化(exp(-n KL(p,q))界的值匹配上面的更复杂的边界。足够奇怪的是,给定I类型错误的下界,给定0类型II错误为<1,我想知道是否<1类型II错误率实际上可以实现
Yaroslav Bulatov 2010年

1
实际上,更容易理解的参考是Cover的“信息论要素”,第309页,第12.8节“ Stein的引理”
Yaroslav Bulatov,2010年

8

当您将一组身份可视化为 Fisher度量张量中的流形时,KL具有深层含义,它给出了两个“接近”分布之间的测地距离。正式地:

ds2=2KL(p(x,θ),p(x,θ+dθ))

以下几行在这里详细解释了这种简单的数学公式的含义。

Fisher指标的定义。

考虑一个参数化的概率分布族(由R n的密度给出),其中x是随机变量,而theta是R p中的参数。你们可能都知道,费舍尔信息矩阵F = F iD=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

使用这种表示法,是黎曼流形,而F θ 是黎曼度量张量。(此指标的兴趣由cramer Rao下界定理给出)DF(θ)

您可能会说...好的数学抽象概念,但KL在哪里?

这不是数学上的抽象,如果您真的可以将参数化密度想象为曲线(而不是无限维空间的子集)和F 11p=1F11连接到该曲线的曲率...(请参见Bradley Efron的论文http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282

几何答案点的一部分和/你的问题:的平方距离两者之间的(接近)的分布p X θ p X θ + d θ 在歧管(认为在测地距离的两点接近的地球,它与地球的曲率有关)由二次形式给出:ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

并且已知是Kullback Leibler Divergence的两倍:

ds2=2KL(p(x,θ),p(x,θ+dθ))

如果您想了解更多有关此的信息,建议您阅读Amari的文章, 网址为http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (我认为Amari还有一本书统计中的黎曼几何,但我不记得这个名字了)


请在您的LaTeX周围加$。现在应该可以了。参见meta.math.stackexchange.com/questions/2/…–
罗布·海德曼

1
由于我既不是数学家,也不是统计学家,所以我想重申一下您在说什么,以确保我不会误解。因此,您说对于一般分布,取ds ^ 2(两倍于KL)将具有与R ^ 2(在回归模型中)相似的含义。而且这实际上可以用来量化距离吗?ds ^ 2是否有名称,所以我可以做更多阅读。是否有一篇直接描述此指标并显示应用程序和示例的论文?
Ampleforth

我认为您距离要点还很远,并且我不确定您现在应该尝试进一步。如果你的动机,你可以阅读从布拉德利·埃夫隆我mentionned纸或阿玛瑞纸张projecteuclid.org/...
罗宾吉拉德

1
这似乎是KL的方向导数的表征,而不是KL本身的表征,并且似乎不可能从中消除KL散度,因为与导数不同,KL散度不依赖于流形的几何形状
Yaroslav Bulatov 2010年

7

分布p(。)和q(。)之间的KL(p,q)散度具有直观的信息理论解释,您可能会发现这很有用。

假设我们观察到由某个概率分布p(。)生成的数据x。p(。)的熵给出了表示由p(。)生成的数据所需的平均码长(以位为单位)的下限。

现在,由于我们不知道p(。),我们选择另一个分布,例如q(。)来编码(或描述,陈述)数据。由p(。)生成并使用q(。)进行编码的数据的平均代码长度必定会比使用真实分布p(。)进行编码时要长。KL差异告诉我们该替代代码的效率低下。换句话说,p(。)和q(。)之间的KL散度是使用编码分布q(。)对由p(。)生成的数据进行编码所需的额外位数的平均数。如果实际数据生成分布用于编码数据,则KL散度为非负且等于零。


2

对于您的问题的(b)部分,您可能会遇到这样一个问题,您的一个分布在一个区域中密度较高,而另一个分布则没有。

dP=p一世lnp一世q一世

如果存在 一世 哪里 p一世>0q一世=0。R实现中的数字epsilon可以“帮助您”解决此问题;但这意味着结果值取决于此参数(技术上q一世=0 不需要,仅此而已 q一世 小于数字epsilon)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.