凭直觉,为什么交叉熵可以度量两个概率分布的距离?


11

对于两个离散分布和,交叉熵定义为pq

Hpq=-XpX日志qX

我不知道为什么这将是两个概率分布之间距离的直观度量?

我看到是熵p,其中的措施“惊喜” pH(p,q)是用q代替p的度量。我仍然不理解该定义背后的直观含义。HppppHpqpq


1
我建议您查找度量标准(和距离)的数学定义。通常,遵循这些属性是函数应遵循的最低要求,因为它确实是距离。希望能帮助到你。虽然看起来Hpq=Hp+dķ大号p||q。直观地讲,由于它的功能是KL散度的一部分,因此我假设它是p和q的散度,它被熵p抵消。虽然,这只是一个猜测。而且,发散度不是度量/距离,因此如果交叉熵是,我会感到惊讶。
查理·帕克

然后了解Kullback_leibler发散有助于理解交叉熵: stats.stackexchange.com/questions/188903/...
HALVORSEN的Kjetil b

1
这是一段精彩视频,以清晰,简单的方式解释了KL发散:youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen

看看这个“直觉背后交叉熵”帮助:medium.com/@siddharth.4oct/...
亚洲时报Siddharth罗伊

Answers:


6

在生成模型中,将交叉熵最小化通常用作学习目标,其中p是真实分布,q是学习分布。

p和q的交叉熵等于p的熵加上p和q之间的KL散度。

Hpq=Hp+dķ大号p||q

您可以将视为一个常数,因为直接来自训练数据,而不是模型学习的。因此,只有KL分歧项才重要。KL发散作为概率分布之间的距离的动机是,它告诉您通过使用分布p而不是近似值q获得了多少位信息。Hpp

请注意,KL散度不是合适的距离指标。一方面,它在p和q中不对称。如果需要概率分布的距离度量,则必须使用其他度量。但是,如果您非正式地使用“距离”一词,则可以使用KL散度。


1
为什么将p视为常数?你在学什么”?问 最初的问题没有提及学习,所以我有兴趣更好地理解您的意思:)
Charlie Parker

2
编辑它,使其更清晰。p是来自训练数据的分布,q是模型学习的。
亚伦
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.