6
为什么当概率分布均匀时熵最大?
我知道熵是过程/变量随机性的量度,可以定义如下。对于集合的随机变量:。在MacKay撰写的《熵和信息论》一书中,他在第二章中提供了这一陈述甲ħ (X )= Σ X 我 ∈ 甲 - p (X 我)日志(p (X 我))X∈X∈X \inAAAH(X)=∑xi∈A-p(xi)log(p (xi))H(X)=∑xi∈A−p(xi)log(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) 如果p是均匀的,则熵最大。 直观地说,我能够理解,如果像在集合中的所有数据点都以相同的概率拾取(为组的基数),则随机性或熵的增加。但是,如果我们知道集合中的某些点比其他点更有可能发生(例如,在正态分布的情况下,数据点的最大集中度在均值附近,并且标准偏差区域较小,则随机性或熵应减少。1 /米m A AAAA1/m1/m1/mmmm一种一种A一种一种A 但是,对此有任何数学证明吗?像的方程式一样,我针对对其进行微分,并将其设置为0或类似的值。p (x )H(X)H(X)H(X)p(x)p(x)p(x) 附带说明一下,信息理论中出现的熵和化学(热力学)中的熵计算之间是否有联系?