14 我知道KL散度不是对称的,因此不能严格视为度量标准。如果是这样,当JS Divergence满足度量标准的必需属性时,为什么使用它? 是否有可以使用KL散度但不能使用JS散度或相反的场景? probability distributions kullback-leibler metric — 用户名 source 它们都被使用,仅取决于上下文。如果很明显有必要采用严格的度量标准(例如完成聚类时),那么JS是更可取的选择。另一方面,在模型选择中,基于KL的AIC的使用很广泛。Akaike权重有一个很好的解释,JS不能提供相应的解释,或者它尚未流行。 — 詹姆斯
5 我在Quora上找到了一个非常成熟的答案,并把它放在这里给那些在这里寻找它的人: KL[q;p]𝐾𝐿[𝑞;𝑝]q(x)𝑞(𝑥)p(x)𝑝(𝑥) p(x)𝑝(𝑥)q(x)𝑞(𝑥)p(x)𝑝(𝑥)q(x)𝑞(𝑥)q(x)log[q(x)/p(x)]𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]p(x)𝑝(𝑥)p(x)𝑝(𝑥)q(x)𝑞(𝑥)q(x)𝑞(𝑥)KL[q;p]𝐾𝐿[𝑞;𝑝]q(x)𝑞(𝑥)p(x)𝑝(𝑥) p(x)𝑝(𝑥)q(x)𝑞(𝑥)q(x)𝑞(𝑥)p(x)𝑝(𝑥) — h source