最大熵分布的统计解释


23

我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么?

有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗?

作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。”

因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。


3
我认为您必须对要查找的内容更加具体:熵毕竟是作为变量等“统计”度量,因此最大熵分布使熵最大化是一个很好的统计描述。所以在我看来,您必须走出统计数字才能得出“
合理化

1
Seanv:我同意熵作为统计函数,就像方差,期望值,偏斜等一样“统计”。但是,以均值和标准差为例,它们完全是基于马尔可夫和切比雪夫定理的概率解释,最终多个中心极限定理之一,并且直观地表示长期和(均值)和RMS误差(标准差)。我也许应该重新思考我的问题,以阅读“最大熵分布的概率解释”。
安妮卡

1
安妮卡(Annika),最大熵分布具有以下解释:如果是iid随机变量,则条件概率P | X 1 + + X n = n a P n ,其中P 是集合{ P E P X = a }的最大熵分布X1,X2,P(|X1++Xn=na)P()nP{P:EPX=a}。另请参见ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok,

2
谢谢Ashok。虐待详细研究该论文。这似乎是给定均值使熵最大化的一种特定情况,但是我仍然对使Shanon熵最大化的数学运算在数学上保持上述结果成立感到好奇。是否有效地最小化了概率测度的最大密度或平均浓度?
安妮卡

Answers:


19

这不是我真正的领域,所以有些沉思:

我将从惊喜的概念开始。感到惊讶意味着什么?通常,这意味着发生了某些意料之外的事情。因此,让我们惊讶的是一个概率性的概念,并且可以这样解释(IJ Good对此进行了介绍)。另请参阅Wikipedia贝叶斯惊奇

以是/否情况的特殊情况为例,可能会发生或不会发生。它以概率p发生。说,如果p = 0.9并发生了,您并不感到惊讶。如果p=0.05并发生,您会有些惊讶。如果p=0.0000001并发生了,您真的很惊讶。因此,“观察到的结果中的惊喜值”的自然度量是发生的概率的某些(反)单调函数。取发生的概率的对数似乎很自然(并且效果很好),然后我们加上一个负号以获得一个正数。 另外,通过采用对数,我们将注意力集中在惊奇的顺序上,并且在实践中,概率通常只是或多或少才知道

因此,我们定义了

Surprise(A)=logp(A)
,其中A是观察到的结果,而p(A)是其概率。

现在我们可以问一下预期的惊喜是什么。令X为概率为p的伯努利随机变量。它有两个可能的结果,0和1。各自的惊奇值是

Surprise(0)=log(1p)Surprise(1)=logp
所以当观察惊奇X是本身具有期望的随机变量
plogp+(1p)log(1p)
,这是---惊喜!---X的熵!因此,熵是令人惊讶的

现在,这个问题是关于最大熵的。为什么有人要使用最大熵分布?好吧,一定是因为他们想让他们感到最大的惊讶!为什么有人要那个?

观察它的方法如下:您想学习一些东西,并为此目的建立一些学习经验(或实验……)。如果您已经知道有关该主题的所有知识,那么您将能够始终完美地进行预测,因此不要感到惊讶。这样一来,您将永远不会获得新的经验,因此就不要学习任何新知识(但是您已经知道了一切-没有什么要学习的,所以没关系)。在更典型的情况下,您感到困惑,无法完美预测,这是学习的机会!这导致我们可以通过预期的惊喜(即熵)来衡量“可能的学习量” 。因此,最大化熵无非就是最大化学习机会。这听起来像是一个有用的概念,在设计实验之类的东西时可能会有用。

诗意的例子是众所周知的

温恩·艾纳(Ewen Reise Macht),丹恩·坎恩(Dann Kann)

一个实际的例子:您想设计一个用于在线测试的系统(在线意味着不是每个人都得到相同的问题,这些问题是根据先前的答案动态选择的,因此以某种方式针对每个人进行了优化)。

如果您提出的问题太困难了,那么它们就永远不会被掌握,您将一无所获。这表示您必须降低难度级别。最佳难度级别是多少,即使学习率最大化的难度级别?令正确答案的概率为p。我们想要最大化伯努利熵的p值。但这就是p=0.5。因此,您打算陈述这样的问题:从该人那里获得正确答案的概率为0.5。

然后是连续随机变量X。观察X怎么会惊讶呢?任何特定结果{X=x}的概率为零,logp定义是无用的。但是,如果观察到类似x的概率很小,也就是说,如果密度函数值f(x)很小(假设f是连续的),我们将感到惊讶。得出定义

Surprise(x)=logf(x)
与该定义,从观察预期惊喜X
E{logf(X)}=f(x)logf(x)dx
即,从观察预期惊讶X是的微分熵X。它也可以看作是预期的对数似然。

但这与第一个事件完全不同。太明白了,这是一个例子。令随机变量X代表掷石的长度(例如在体育比赛中)。要测量该长度,我们需要选择一个长度单位,因为没有长度的内在尺度,也没有概率的尺度。我们可以用毫米或千米或更通常用米来度量。但是我们对惊喜的定义,也就是预期的惊喜,取决于所选择的单位,因此没有不变性。因此,微分熵的值不能与香农熵直接比较。如果人们记得这个问题,它可能仍然有用。


5
这是我所见过的关于最大熵的最好,最直观的解释之一!
弗拉迪斯拉夫(Vladislavs Dovgalecs)

3

虽然不是信息论和最大熵方面的专家,但我对此一直很感兴趣。

熵是对根据一组标准得出的概率分布的不确定性的度量。它和相关度量描述了概率分布的特征。而且,这是满足这些标准的独特措施。这类似于概率本身的情况,正如Jaynes(2003)很好地解释的那样,它是唯一满足任何逻辑语句不确定性度量标准的独特度量。

与熵不同的任何其他概率分布不确定性度量都必须违反用于定义熵的一个或多个标准(否则将必然是熵)。因此,如果您以某种概率给出了某种一般性陈述,即以某种方式给出了与最大熵相同的结果……那么它将最大熵!

到目前为止,我能找到的关于最大熵分布的概率陈述中最接近的东西是Jaynes集中定理。您可以在Kapur和Kesavan(1992)中找到清楚的解释。这是一个宽松的重述:

pnpii=1,...,nmm+1

Sm+1 constraints and let Smax be the entropy of the maximum entropy distribution.

As the size of the set of observations N grows, we have

2N(SmaxS)χnm12.

With this, a 95% entropy interval is defined as

(Smaxχnm12(0.95)2N,Smax).
So, any other distribution that satisfies the same constraints as the maximum entropy distribution has a 95% chance of having entropy greater than Smaxχnm12(0.95)2N.

E.T. Jaynes (2003) Probability Theory: The Logic of Science. Cambridge University Press.

J.N. Kapur and .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.


3

Perhaps not exactly what you are after, but in Rissanen, J. Stochastic Complexity in Statistical Inquiry, World Scientific, 1989, p. 41 there is an interesting connection of maximum entropy, the normal distribution and the central limit theorem. Among all densities with mean zero and standard deviation σ, the normal density has maximum entropy.

"Hence, in this interpretation the basic central limit theorem expresses the fact that the per symbol entropy of sums of independent random variables with mean zero and common variance tends to the maximum. This seems eminently reasonable; in fact, it is an expression of the second law of thermodynamics, which Eddington viewed as holding 'the supreme position among the laws of Nature'."

I have not yet explored the implications of this, nor am I sure I fully understand them.

[edit: fixed typo]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.