为什么在t-SNE目标函数中使用Kullback-Leibler发散而不是交叉熵？

在我看来，KL从样本分布到真实分布的差异仅仅是交叉熵和熵之间的差异。

为什么在许多机器学习模型中使用交叉熵作为代价函数，而在t-sne中使用Kullback-Leibler散度？学习速度有什么不同吗？

kullback-leibler tsne cross-entropy

— 吉姆·斯帕克
source

在这里看到的KL一些直觉： stats.stackexchange.com/questions/188903/...

— 的Kjetil b HALVORSEN

KL散度是衡量两个概率分布之间差异的自然方法。分布的熵给出每条消息的最少可能的位数，这是无损编码从提取的事件所需的（平均）。要达到此界限，将需要使用为设计的最佳代码，该代码将较短的代码字分配给较高概率的事件。可以被解释为期望数目的额外从真实分布中抽取需要编码的事件每消息比特 $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ ，如果使用最佳代码分配而不是。它具有一些比较分布的不错的属性。例如，如果和相等，则KL散度为0。 $q$ $p$ $p$ $q$

如果对分布使用最佳代码，则交叉熵可以解释为编码从真实分布提取的事件所需的（平均）每条消息的位数。注意区别：测量的平均数目额外每消息比特，而的平均数目措施总每消息比特。的确，对于固定， $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ $H(p, q)$ $p$ 将随着与越来越不同而增长。但是，如果不固定，则很难将解释为差的绝对度量，因为它随的熵增长。 $H(p, q)$ $q$ $p$ $p$ $H(p, q)$ $p$

KL散度和交叉熵与以下内容相关：

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

$p$ $q$ $p$

$p$ $q$

$p$ $H(p)$ $p$ $H(p)$ $p$

$p$ $q$ $D_{KL}(p \parallel q)$ $p$ $q_{j \mid i}$ $p_{j \mid i}$ 是Kullback-Leibler散度（在这种情况下，它等于交叉熵，直到加法常数）。”

van der Maaten和Hinton（2008）。使用t-SNE可视化数据。

— 用户20160
source

我可以以某种方式“最喜欢”的答案吗？我要保存这个，因为这是一个很好的解释

— zwep

谢谢，很高兴对您有所帮助。您可以通过单击投票按钮下方的星形图标将问题标记为收藏夹，以保存整个话题。您可以在帐户页面上查看收藏夹列表。

— user20160