Answers:
看来您是在想:“如果了解更多信息,那么未知则更多熵”。这不是正确的直觉,因为如果分布未知,我们甚至都不知道其熵。如果已知分布,则 熵将量化描述随机变量实现不确定性所需的信息量,该不确定性仍然未知(我们仅通过了解分布来了解围绕此不确定性的结构)。熵不能量化分布中“存在”的信息。相反:分布中包含的信息越多,描述不确定性所需的信息就越少,因此信息量越少熵是。考虑均匀分布:它包含的信息很少,因为变量的所有可能值都是等概率的:因此,在具有有限支持的所有分布中,它具有最大的熵。
对于联合熵,您可能会这样认为:联合分布包含有关两个变量是否相关的信息,以及足以得出边际分布的信息。边际分布不包含有关两个随机变量是相关变量还是独立变量的信息。因此,联合分布具有更多信息,并为我们提供了有关所涉及的随机变量的较少不确定性:
分发中包含更多信息 变量周围的不确定性较小 描述这种不确定性所需的信息较少 熵少。