看这张图片:
如果我们从红色密度中抽取一个样本,那么某些值预计将小于0.25,而不可能从蓝色分布中生成这样的样本。结果,从红色密度到蓝色密度的Kullback-Leibler距离是无穷大。但是,在某种“自然意义上”,两条曲线并没有那么明显。
这是我的问题:是否存在对Kullback-Leibler距离的适应,从而允许这两条曲线之间有有限的距离?
看这张图片:
如果我们从红色密度中抽取一个样本,那么某些值预计将小于0.25,而不可能从蓝色分布中生成这样的样本。结果,从红色密度到蓝色密度的Kullback-Leibler距离是无穷大。但是,在某种“自然意义上”,两条曲线并没有那么明显。
这是我的问题:是否存在对Kullback-Leibler距离的适应,从而允许这两条曲线之间有有限的距离?
Answers:
您可能会看到Devroye,Gyorfi和Lugosi的第3章,模式识别的概率论,Springer,1996年。尤其请参见关于散度的部分。
˚F散度可以看作是Kullback-Leibler的推广(或者,KL可以看作散度的一种特殊情况)。
一般形式为
其中是控制与和相关联的度量的度量,而是满足的凸函数。(如果和是关于Lebesgue测度的密度,只需将符号替换为,就可以了。)p q ˚F (⋅ )˚F (1 )= 0 p (X )q (X )d X λ (d X )
我们通过取恢复KL 。我们可以通过来获得Hellinger差,并通过取获得总变化或距离。。后者给˚F (X )= (1 - √L1f(x)= 1
请注意,至少这最后一个给了您有限的答案。
在另一本名为《密度估计:视图》的小书中,Devroye强烈建议使用后者的距离,因为它具有许多不错的不变性(以及其他特性)。后一本书可能比前一本书更难掌握,并且正如书名所示,它更加专业。
附录:通过这个问题,我意识到@Didier提出的度量似乎(至恒定)被称为Jensen-Shannon Divergence。如果您单击该问题所提供答案的链接,您会发现原来该数量的平方根实际上是一个度量,并且在文献中先前被认为是散度的一种特殊情况。。我发现有趣的是,通过对这个问题的讨论,我们似乎集体(而不是很快地)“彻底”发明了轮子。我之前在@Didier的回复下面的评论中对它的解释也得到认可。到处都是,实际上整齐。
的相对熵的相对于为无穷大时不是绝对连续相对于,即,当存在可测量的组使得和。此外,在通常的意义上,KL散度不是对称的。回想一下 仍然基于KL散度的两个缺点的一种解决方法是引入中点 因此P Q P Q 甲Q (甲)= 0 P (甲)≠ 0 κ (P | Q )≠ κ (Q | P )κ (P | Q )= ∫ P 日志(PR=1
等效公式为
附录1在的意义上,引入和的中点并不是任意的 最小值在一组概率测度之上。
附录2 @基数表示也是散度,对于凸函数 ˚F ˚F (X )= X 日志(X )- (1 + X )的日志(1 + X )+ (1 + X )的日志(2 )。
两个分布和之间的Kolmogorov距离是其CDF的和。(这是CDF的两个图之间最大的垂直差异。)用于分布测试,其中为假设分布,为数据集的经验分布函数。Q P Q
很难将其描述为KL距离的“适应”,但它确实满足“自然”和有限的其他要求。
顺便说一句,因为KL散度不是真正的“距离”,所以我们不必担心保留距离的所有公理性质。我们可以在将某些有限值应用于任何单调变换同时使值保持有限,从而保持非负性。例如,反切线会很好。C
是的,确实如此,贝尔纳多和瑞达定义了一种称为“内在差异”的东西,从所有目的出发,这是KL分歧的“对称”形式。将KL从到差异设为 内在差异由下式给出:
搜索内在差异(或贝叶斯参考标准)将为您提供有关此度量的一些文章。
在您的情况下,您只需采用有限的KL散度。
KL的另一种替代量度是Hellinger距离
编辑:澄清,提出的一些评论表明,当一个密度为0而不是另一个密度为0时,固有差异将不是有限的。如果评估零密度的操作是作为极限 或进行的,则情况并非如此。该限制定义明确,对于KL分歧之一,它等于,而另一个分歧将等于。要查看此注释:
将极限作为在积分区域上,第二个积分发散,并且第一个积分在该区域上收敛到(假设条件是可以互换极限和积分)。这是因为。由于和的对称性,结果对于也成立。