Answers:
甚至在相同的支持下,当一个分布的尾部比另一个分布大得多时。采取 当 然后 和 还有其他距离仍然是有界的,例如p (X )= 柯西密度⏞ 1
对于没有相同支持的发行版,KL散度不受限制。看一下定义:
如果P和Q具有不同的支持,则存在某个点,其中和,使KL变为无穷大。这也适用于离散分布,这就是您的情况。
编辑:衡量概率分布之间差异的更好选择是所谓的Wasserstein距离,它是一种度量标准,比KL差异具有更好的属性。由于其在深度学习中的应用,它已变得非常流行(请参阅WGAN网络)
为了补充卡洛斯和西安的出色答案,还值得注意的是,使KL散度为有限的充分条件是,两个随机变量具有相同的紧致支持,并且有对参考密度的限制。该结果还为KL散度的最大值建立了一个隐式边界(请参见下面的定理和证明)。
定理:如果密度和具有相同的紧支撑,并且密度限制在该支撑上(即,具有有限的上限),则。
证明:由于具有紧凑的支持这意味着存在一些正的最小值:
同样,由于具有紧凑的支持这意味着存在一些正的最高值:
此外,由于这两个密度都在同一个支撑上,并且后者是有界的,因此我们有。这意味着:
现在,让是后者的上限,我们显然有所以那:
这确定了所需的上限,证明了定理。