12 我不是数学家。我在互联网上搜索了有关KL Divergence的信息。我了解到的是,KL散度度量的是当我们相对于输入分布来近似模型的分布时所损失的信息。我已经看到了任意两个连续或离散分布之间的差异。我们可以在连续和离散之间做到这一点吗? distributions mathematical-statistics kullback-leibler — 普拉卡什 source 相关:stats.stackexchange.com/q/6907/2970 — 主教
4 否:KL散度仅在公共空间的分布上定义。它询问两个不同分布和下的点的概率密度。如果是的分布,而是上的分布,则对于和对于点没有意义。实际上,我们甚至无法针对不同维度空间上的两个连续分布(或离散的或基础概率空间不匹配的任何情况)执行此操作。XXp (X)p(X)q(x )q(X)pp[R3[R3qqžžq(x )q(X)p ∈[R3p∈[R3p ( ž)p(ž)ž∈ žž∈ž 如果您有一个特定的案例,则有可能想出一些类似思路来衡量分布之间的差异。例如,可能有意义的是,例如通过舍入到离散情况下的最接近的点,在一个离散的代码下(显然是丢失了信息)对一个连续分布进行编码。 — 杜加尔 source 请注意,离散分布和绝对连续分布之间的KL散度定义明确。 — 奥利维尔 @Olivier通常的定义需要通用的控制措施,不是吗? — Dougal 1 当在不同的空间上定义P和Q时,您是对的。但是在一个共同的可测量空间上,这种度量总是存在(例如P + Q),而KL散度并不取决于主导度量的特定选择。 — 奥利维尔
8 是的,连续随机变量和离散随机变量之间的KL散度定义明确。如果PP 和 QQ 是一些空间上的分布 XX,然后两者 PP 和 QQ 有密度 ff, gg 关于 μ=P+Qμ=P+Q 和 DKL(P,Q)=∫Xflogfgdμ.DKL(P,Q)=∫Xflogfgdμ. 例如,如果 X =[0,1]X=[0,1个], PP 是勒贝格的措施, Q =δ0问=δ0 是点质量 00, 然后 F(X )= 1 -1个x = 0F(X)=1个-1个X=0, G(x )=1个x = 0G(X)=1个X=0 和 dķ大号(P,Q )= ∞ 。dķ大号(P,问)=∞。 — 奥利维尔 source 你如何证明 ∫XF日志FGdμ∫XF日志FGdμ是否独立于主导措施? — 加布里埃尔·罗蒙 测度定理的变化。 — 奥利维尔,
1 不一般。吉隆坡的分歧是 dķ大号(P | | Q)= ∫X日志(dPd问) dPdķ大号(P || 问)=∫X日志(dPd问)dP 规定 PP 关于...绝对连续 问问 和两者 PP 和 问问 是 σσ有限的(即在 dPd问dPd问 是明确定义的)。 对于某些常规空间上的小节之间的“连续到离散” KL散度,您会遇到这样的情况:勒贝格小节相对于计数小节是绝对连续的,但计数小节不是 σσ-有限。 — 托宾 source