通过蒙特卡洛采样估计信息熵


10

我正在寻找一种方法,当从该分布进行采样的唯一实际方法是蒙特卡洛方法时,该方法可以估计该分布的信息熵。

我的问题与标准的Ising模型没有什么不同,该模型通常用作Metropolis-Hastings采样的入门示例。我有超过一组的概率分布,即我有p 对于每个。元素一个是组合性质的,伊辛状态,并且有一个非常高的数字他们的。这意味着在实践中,从计算机上的此分布进行采样时,我永远不会两次获得相同的采样。p a 不能直接计算(由于不知道归一化因子),但是比率p aAp(a)aAaAp(a)很容易计算。p(a1)/p(a2)

我想估计这种分布的信息熵

S=aAp(a)lnp(a).

或者,我想估计此分布与通过将分布限制为的子集(当然还有重新归一化)而获得的熵差。aA1A

Answers:


3

如果我了解您可以使用的信息,那么您将无法获得所需的信息:您可以使用的信息不足以确定熵。仅仅估计熵还不够。

听起来您有一种方法可以从分布进行采样,并且有一种方法可以计算出通过采样获得的任意一对元素的比率,但您没有其他信息。如果是这样,则您的问题无法解决。p a 1/ p a 2a 1a 2p()p(a1)/p(a2)a1,a2

特别是,我们可以找到一对具有不同熵的分布,但是无法使用可用的信息来区分它们。首先考虑大小为的(随机)集合上的均匀分布。接下来考虑大小为的(随机)集合上的均匀分布。它们具有不同的熵(200位与300位)。但是,在获得可用信息的情况下,您将无法知道您正在使用这两个发行版中的哪一个。特别是在两种情况下,比率 2 300 p 一个1/ p 一个222002300p(a1)/p(a2)总是正好为1,因此比率不会帮助您区分两种分布。而且由于生日悖论,您可以随意采样,但是您永远不会两次获得相同的值(不是在您的生命周期内,除非以指数形式的小概率出现),所以从采样中获得的值看起来就像随机点,不包含有用信息。

因此,要解决您的问题,您需要了解更多信息。例如,如果您对分布的结构有所了解,则可能可以解决您的问题。p()


p α EXP θ È Ë 一个θp(a)事实上确实有一个特殊的性质:它是吉布斯一样,即,其中是“节能”。除了有多个“能量”量,每个量都有其相应的参数。p(a)exp(θE(a))Eaθ
查尔斯·韦尔斯

1
@CharlesWells,我没有遵循您所说的“多数量”。听起来这值得单独发布,作为一个单独的问题,您可以在其中向我们提供有关结构的信息。对于这种特殊情况,也许有解决方案。p(a)
DW

2

对于问题的第二部分(分布之间的熵差的估计),您可以使用恒等式其中是平均能量,是温度(它是在与成正比,而是熵。有关详细信息,请参阅:Jaynes,E.(1957)。信息论与统计力学。物理评论,第106卷第4期,第620-630页。http://doi.org/10.1103/PhysRev.106.620È Ť θ p α Ë θ Ë小号

F=ETS,
ETθpeθES

ΔFΔSΔFΔEA1AEA1

这是有关计算自由能的算法的两个附加参考:

Lelièvre,T.,Rousset,M.和Stoltz,G.(2010)。自由能源计算。帝国学院出版社。http://doi.org/10.1142/9781848162488

Chipot,C.和Pohorille,A.(2007)。自由能计算。(C. Chipot和A. Pohorille,编辑)(第86卷)。柏林,海德堡:施普林格·柏林海德堡。http://doi.org/10.1007/978-3-540-38448-9


您能为计算自由能差异提供更多实用参考吗?那个维基不会走得太远
查尔斯·韦尔斯

做完了 我添加了两个参考,并指向了Wiki侧栏中的链接。
Juan M. Bello-Rivas
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.