我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么?
有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗?
作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。”
因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么?
有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗?
作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。”
因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。
Answers:
这不是我真正的领域,所以有些沉思:
我将从惊喜的概念开始。感到惊讶意味着什么?通常,这意味着发生了某些意料之外的事情。因此,让我们惊讶的是一个概率性的概念,并且可以这样解释(IJ Good对此进行了介绍)。另请参阅Wikipedia和贝叶斯惊奇。
以是/否情况的特殊情况为例,可能会发生或不会发生。它以概率发生。说,如果p = 0.9并发生了,您并不感到惊讶。如果并发生,您会有些惊讶。如果并发生了,您真的很惊讶。因此,“观察到的结果中的惊喜值”的自然度量是发生的概率的某些(反)单调函数。取发生的概率的对数似乎很自然(并且效果很好),然后我们加上一个负号以获得一个正数。 另外,通过采用对数,我们将注意力集中在惊奇的顺序上,并且在实践中,概率通常只是或多或少才知道。
因此,我们定义了
现在我们可以问一下预期的惊喜是什么。令为概率为的伯努利随机变量。它有两个可能的结果,0和1。各自的惊奇值是
现在,这个问题是关于最大熵的。为什么有人要使用最大熵分布?好吧,一定是因为他们想让他们感到最大的惊讶!为什么有人要那个?
观察它的方法如下:您想学习一些东西,并为此目的建立一些学习经验(或实验……)。如果您已经知道有关该主题的所有知识,那么您将能够始终完美地进行预测,因此不要感到惊讶。这样一来,您将永远不会获得新的经验,因此就不要学习任何新知识(但是您已经知道了一切-没有什么要学习的,所以没关系)。在更典型的情况下,您感到困惑,无法完美预测,这是学习的机会!这导致我们可以通过预期的惊喜(即熵)来衡量“可能的学习量” 。因此,最大化熵无非就是最大化学习机会。这听起来像是一个有用的概念,在设计实验之类的东西时可能会有用。
诗意的例子是众所周知的
温恩·艾纳(Ewen Reise Macht),丹恩·坎恩(Dann Kann)
一个实际的例子:您想设计一个用于在线测试的系统(在线意味着不是每个人都得到相同的问题,这些问题是根据先前的答案动态选择的,因此以某种方式针对每个人进行了优化)。
如果您提出的问题太困难了,那么它们就永远不会被掌握,您将一无所获。这表示您必须降低难度级别。最佳难度级别是多少,即使学习率最大化的难度级别?令正确答案的概率为。我们想要最大化伯努利熵的值。但这就是。因此,您打算陈述这样的问题:从该人那里获得正确答案的概率为0.5。
然后是连续随机变量。观察怎么会惊讶呢?任何特定结果的概率为零,定义是无用的。但是,如果观察到类似的概率很小,也就是说,如果密度函数值很小(假设是连续的),我们将感到惊讶。得出定义
但这与第一个事件完全不同。太明白了,这是一个例子。令随机变量代表掷石的长度(例如在体育比赛中)。要测量该长度,我们需要选择一个长度单位,因为没有长度的内在尺度,也没有概率的尺度。我们可以用毫米或千米或更通常用米来度量。但是我们对惊喜的定义,也就是预期的惊喜,取决于所选择的单位,因此没有不变性。因此,微分熵的值不能与香农熵直接比较。如果人们记得这个问题,它可能仍然有用。
虽然不是信息论和最大熵方面的专家,但我对此一直很感兴趣。
熵是对根据一组标准得出的概率分布的不确定性的度量。它和相关度量描述了概率分布的特征。而且,这是满足这些标准的独特措施。这类似于概率本身的情况,正如Jaynes(2003)很好地解释的那样,它是唯一满足任何逻辑语句不确定性度量标准的独特度量。
与熵不同的任何其他概率分布不确定性度量都必须违反用于定义熵的一个或多个标准(否则将必然是熵)。因此,如果您以某种概率给出了某种一般性陈述,即以某种方式给出了与最大熵相同的结果……那么它将是最大熵!
到目前为止,我能找到的关于最大熵分布的概率陈述中最接近的东西是Jaynes集中定理。您可以在Kapur和Kesavan(1992)中找到清楚的解释。这是一个宽松的重述:
constraints and let be the entropy of the maximum entropy distribution.
As the size of the set of observations grows, we have
With this, a 95% entropy interval is defined as
E.T. Jaynes (2003) Probability Theory: The Logic of Science. Cambridge University Press.
J.N. Kapur and .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.
Perhaps not exactly what you are after, but in Rissanen, J. Stochastic Complexity in Statistical Inquiry, World Scientific, 1989, p. 41 there is an interesting connection of maximum entropy, the normal distribution and the central limit theorem. Among all densities with mean zero and standard deviation , the normal density has maximum entropy.
"Hence, in this interpretation the basic central limit theorem expresses the fact that the per symbol entropy of sums of independent random variables with mean zero and common variance tends to the maximum. This seems eminently reasonable; in fact, it is an expression of the second law of thermodynamics, which Eddington viewed as holding 'the supreme position among the laws of Nature'."
I have not yet explored the implications of this, nor am I sure I fully understand them.
[edit: fixed typo]