Kullback-Leibler距离的改编?


28

看这张图片: 在此处输入图片说明

如果我们从红色密度中抽取一个样本,那么某些值预计将小于0.25,而不可能从蓝色分布中生成这样的样本。结果,从红色密度到蓝色密度的Kullback-Leibler距离是无穷大。但是,在某种“自然意义上”,两条曲线并没有那么明显。

这是我的问题:是否存在对Kullback-Leibler距离的适应,从而允许这两条曲线之间有有限的距离?


1
在什么“自然意义上”,这些曲线“不是那么独特”吗?这种直观的亲密关系与任何统计属性如何相关?(我能想到几个答案,但我想知道您的想法。)
whuber

1
嗯...从两者都定义为正值的角度来看,它们彼此非常接近。它们既增加又减少;两者实际上有着相同的期望;如果我们限制在x轴的一部分,那么Kullback Leibler距离就“很小” ...但是为了将这些直观的概念与任何统计属性相关联,我需要对这些特征进行严格的定义...
ocram

Answers:


18

您可能会看到Devroye,Gyorfi和Lugosi的第3章,模式识别的概率论,Springer,1996年。尤其请参见关于散度的部分。f

˚Ff散度可以看作是Kullback-Leibler的推广(或者,KL可以看作散度的一种特殊情况)。f

一般形式为

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

其中是控制与和相关联的度量的度量,而是满足的凸函数。(如果和是关于Lebesgue测度的密度,只需将符号替换为,就可以了。)p q ˚F ˚F 1 = 0 p X q X d X λ d X λpqf()f(1)=0p(x)q(x)dxλ(dx)

我们通过取恢复KL 。我们可以通过来获得Hellinger差,并通过取获得总变化或距离。。后者给˚F X = 1 - f(x)=xlogxL1fx= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

请注意,至少这最后一个给了您有限的答案。

在另一本名为《密度估计:视图》的L1小书中,Devroye强烈建议使用后者的距离,因为它具有许多不错的不变性(以及其他特性)。后一本书可能比前一本书更难掌握,并且正如书名所示,它更加专业。


附录:通过这个问题,我意识到@Didier提出的度量似乎(至恒定)被称为Jensen-Shannon Divergence。如果您单击该问题所提供答案的链接,您会发现原来该数量的平方根实际上是一个度量,并且在文献中先前被认为是散度的一种特殊情况。。我发现有趣的是,通过对这个问题的讨论,我们似乎集体(而不是很快地)“彻底”发明了轮子。我之前在@Didier的回复下面的评论中对它的解释也得到认可。到处都是,实际上整齐。f


1
非常好!我将尝试查找“模式识别的概率论”并理解其第3章!
ocram'2

1
好的答案,请注意,通常以另一种方式定义,使其达到距离的一半。大号1DTVL1
罗宾吉拉德2011年

1
@robin,谢谢您的评论。是的,我意识到这一点。我只是想避免博览会中一个混乱的无关常量。但是,严格来说,你是对的。我已经相应地更新了。
主教

3
到目前为止,您的附录是我在stats.SE上遇到的最有用的信息。我最热烈的感谢。在这里,我只是简单地复制您给的参考:research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/…Endres和Schindelin,一种新的概率分布度量标准,IEEE Trans。在信息上。y ,卷 49号 3,2003年7月,第1858-1860页。
有没有

1
@Didier,嗯,这比其他任何事情都更令人高兴。没有人在回答另一个问题,所以我决定尝试弄清楚詹森-香农发散最初是什么。找到定义后,通过我的附录将两个问题联系起来似乎是合理的。很高兴您发现它有用。问候。
主教

19

的相对熵的相对于为无穷大时不是绝对连续相对于,即,当存在可测量的组使得和。此外,在通常的意义上,KL散度不是对称的。回想一下 仍然基于KL散度的两个缺点的一种解决方法是引入中点 因此P Q P Q Q = 0 P 0 κ P | Q κ Q | P κ P | Q = P 日志Pκ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)R=1

κ(PQ)=Plog(PQ).
[RPQ- [RPQ- [RηPQ=κP|- [R +κQ|- [R ) ηPQPQηηPQ=ηQPPQη
R=12(P+Q).
R是一个概率度量,并且和相对于总是绝对连续的。因此,仍然可以基于KL发散但使用来定义和之间的“距离” ,被定义为 然后是非负和有限每和,是在这个意义上对称即为每一个和,以及当且仅当。PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

等效公式为

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

附录1在的意义上,引入和的中点并不是任意的 最小值在一组概率测度之上。PQ

η(P,Q)=min[κ(P)+κ(Q)],

附录2 @基数表示也是散度,对于凸函数 ˚F ˚F X = X 日志X - 1 + X 的日志1 + X + 1 + X 的日志2 ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@ Marco,@ Didier Piau,可能会注意到@Didier的建议是散度的另一种特殊情况,其中。f x = x log x 1 + x log 1 + xff(x)=xlogx(1+x)log(1+x2)
主教

1
@Marco,@Didier Piau,具有某种令人回味的性质的替代公式是,因此其中。换句话说,是“平均测度的熵与度量的平均熵。”η P Q = 2 ħ μ P Q μ η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))μ x y = x + yη(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q)) 1μ(x,y)=x+y212η(P,Q)
红衣主教

3
这不仅仅是詹森-香农的分歧吗?
2013年


“最小值超过了一组概率测度。” 我喜欢詹森-香农分歧的这种特征。某处有证据吗?
user76284 '18

10

两个分布和之间的Kolmogorov距离是其CDF的和。(这是CDF的两个图之间最大的垂直差异。)用于分布测试,其中为假设分布,为数据集的经验分布函数。Q P QPQPQ

很难将其描述为KL距离的“适应”,但它确实满足“自然”和有限的其他要求。

顺便说一句,因为KL散度不是真正的“距离”,所以我们不必担心保留距离的所有公理性质。我们可以在将某些有限值应用于任何单调变换同时使值保持有限,从而保持非负性。例如,反切线会很好。CR+[0,C]C


1
感谢您对Kolmogorov距离的建议。您能否对单调变换发表一些更明确的评论?Thx
ocram 2011年

1
@Marco我不明白该如何明确。您是说将或等公式重新写成与意味着所有?arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
ub

1
是的,这就是我的意思:-)我不确定要应用什么转换。现在,很清楚,谢谢
ocram

1
@Marco:我迷路了。您是否满足Kolmogorov距离(该距离总是有限的,但与KL散度没有共同点)?还是要进行KL散度的有界单调变换(例如)?在您的帖子示例(以及任何其他非绝对连续的示例)中,后者将产生转换的最大值(如果您愿意使用,则将生成)。实际上,它放弃了任何一种精确地估计此类概率测度之间距离的想法,而不是说它们相距很远(无论您用还是用进行编码都是无关紧要的)。arctanπ/2arctanπ/2+
做过

@Didier是的,变换后的KL散度(如您所描述的那样对称时)可能不满足三角形不等式,因此不是一个距离,但仍将定义一个拓扑(可能会变得可量化)。因此,您几乎不放弃任何东西。我仍然不知道这样做的好处:在我看来,这只是一种书面方式,可以解决与KL散度的无限值相关的困难。
whuber

2

是的,确实如此,贝尔纳多和瑞达定义了一种称为“内在差异”的东西,从所有目的出发,这是KL分歧的“对称”形式。将KL从到差异设为 内在差异由下式给出:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

搜索内在差异(或贝叶斯参考标准)将为您提供有关此度量的一些文章。

在您的情况下,您只需采用有限的KL散度。

KL的另一种替代量度是Hellinger距离

编辑:澄清,提出的一些评论表明,当一个密度为0而不是另一个密度为0时,固有差异将不是有限的。如果评估零密度的操作是作为极限 进行的,则情况并非如此该限制定义明确,对于KL分歧之一,它等于,而另一个分歧将等于要查看此注释:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

将极限作为在积分区域上,第二个积分发散,并且第一个积分在该区域上收敛到(假设条件是可以互换极限和积分)。这是因为。由于和的对称性,结果对于也成立。P00limz0zlog(z)=0PQQ


1
即使是“固有差异”将是无限的,当是零与正的概率和反之亦然,即使和是其它方面相同。PQPQ
ub

1
是的...恐怕内在差异无法满足要求。但是谢谢你的建议。任何其他建议将不胜感激。
ocram 2011年

1
如果您将蓝色密度的支撑限制在它具有严格正支撑的位置,那么它确实满足了要求,就像对红色密度(> 0)的支撑一样
概率

3
@probabilityislogic:我不会理解你的最后一句话。首先,让我们对所涉及的概念取适当的名称,并说如果对于每个可测,意味着,则相对于绝对连续(表示为)。。现在,尽管你有点神秘(对我来说)限制的考虑,您的是有限的当且仅当或。... / ...PP一种一种=0P一种=0δPPP
难道

2
... / ...出路的难题,你似乎是挖成可能是引进的中点测量。由于和,因此始终是有限的。此外,且且是对称的。因此确实测量了和之间的一种“距离” 。P « P + Q Q « P + Q η P Q = κ P | P + Q + κ Q | P + Q η P Q = 0 P = Q η η P Q P QP+PP+P+ηP:=κP|P++κ|P+ηP=0P=ηηPP
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.