启发式地,上的概率密度函数。。,。具有最大熵的x n }证明是与{ x 1,x 2,。。。最小知识量相对应的。。,。x n },即均匀分布。{ x1个,X2,。。,.xn}{ x1个,X2,..,.xn}
现在,要获得更正式的证明,请考虑以下内容:
上的概率密度函数。。,。X Ñ } 是一组非负实数p 1,。。。,p Ñ加起来为1。熵是一个连续函数Ñ元组(p 1,。。。,p Ñ),并且这些点位于的紧凑子组ř Ñ,所以有一个Ñ{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn-熵最大的元组。我们要展示这发生在和其他地方。(1/n,...,1/n)
假设并非全部相等,例如p 1 < p 2。(显然n ≠ 1。)我们将发现具有更高熵的新概率密度。然后,由于熵在某个n元组处最大化,因此该熵在n元组处唯一地最大化,所有i的p i = 1 / n。pjp1<p2n≠1nnpi=1/ni
由于,对于小的正ε,我们有p 1 + ε < p 2 - ε。{ p 1 + ε ,p 2 - ε ,p 3,...的熵。。。,p n }减去{ p 1,p 2,p 3,...的熵。。。,pp1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn}等于{p1,p2,p3,...,pn}
为了完成证明,我们要证明这是积极的足够小ε。改写上述公式为
-p1个日志(1+ε
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
回顾为小X,上述公式是
- ε - ε 日志p 1 + ε + ε 日志p 2 + Ö (ε 2)= ε 日志(p 2 / p 1)+ ö (ε 2)
,其为正时log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
足够小,因为
p 1 < p 2。
εp1<p2
不太严格的证据如下:
首先考虑以下引理:
让和q (X )是对的间隔连续概率密度函数
我在实数,用p ≥ 0和q > 0上予。我们有
- ∫我 p 数p d X ≤ - ∫我 p 数q d X
,如果存在两个积分。此外,当且仅当p (x )= q (p(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
对于所有
x。
p(x)=q(x)x
现在,令为{ x 1,...上的任何概率密度函数。。。,x n },其中p i = p (x i)。令所有i的q i = 1 / n,
− n ∑ i = 1 p i log q i = n ∑ i = 1 p i log n =p{x1,...,xn}pi=p(xi)qi=1/ni
是 q的熵。因此,我们的引理说 ^ h (p )≤ ^ h (q ),用平等的当且仅当 p是均匀的。
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
此外,维基百科对此也进行了简短的讨论:维基