MaxEnt,ML,Bayes和其他统计推断方法之间的比较


21

我绝不是统计学家(我上过数学统计学课程,但仅此而已),最近,在学习信息论和统计力学时,我遇到了一个叫做“不确定性度量” /“熵”的东西。我读过Khinchin推导它的方法来衡量不确定性,这对我来说很有意义。有意义的另一件事是,当您知道样本上一个或多个函数的算术平均值时(假设您接受作为当然的不确定性度量),Jaynes对MaxEnt的描述将获得统计量。 -p一世lnp一世

因此,我在网上搜索了与其他统计推断方法之间的关系,上帝让我感到困惑。例如论文表明,假设我得到它的权利,你只得到下一个问题的适当再形成一个ML估计; MacKey在他的书中说,MaxEnt可以给您带来怪异的东西,即使在贝叶斯推断中作初步估计,也不应使用它。等等。我在寻找良好的比较时遇到了麻烦。

我的问题是,作为统计推断方法,可以将MaxEnt的优缺点作为一个解释和/或一个很好的参考,并与其他方法进行定量比较(例如,应用于玩具模型时)?

Answers:


19

MaxEnt和贝叶斯推断方法对应于将信息合并到建模过程中的不同方式。两者都可以放在公理基础上(约翰·斯基林的“最大熵公理”和考克斯的“可能推论代数”)。

如果您的先验知识是假设空间上可测量的实值函数(即所谓的“先验”)的形式,那么贝叶斯方法将直接适用。当信息来自假设空间的一组严格约束条件时,MaxEnt很简单。在现实生活中,知识既不是“先验”形式也不是“约束”形式,因此,方法的成功取决于您以相应形式表示知识的能力。

在玩具问题上,当先验匹配假设的真实分布时,贝叶斯模型平均将为您提供最低的平均对数损失(在许多模型绘制中进行平均)。当满足其约束条件时(最糟糕的情况优先考虑),MaxEnt方法将为您提供最低的最坏情况对数损失

被认为是“ MaxEnt”方法之父的ETJaynes也依赖贝叶斯方法。在其书的第1412页中,他给出了一个例子,其中贝叶斯方法产生了很好的解决方案,然后给出了一个例子,其中MaxEnt方法更加自然。

最大似然性实质上是将模型置于某个预定的模型空间内,并试图“尽可能难地”使其适应,因为在这种情况下,对所有数据的限制仅在模型选择方法中,它对数据的敏感性最高。空间。尽管MaxEnt和Bayesian是框架,但是ML是一种具体的模型拟合方法,对于某些特定的设计选择,ML可以最终使该方法来自Bayesian或MaxEnt方法。例如,具有相等约束的MaxEnt等同于某个指数族的最大似然拟合。类似地,对贝叶斯推断的近似可以导致正规化的最大似然解。如果您选择先验后得出结论对数据最大程度地敏感,则贝叶斯推断的结果将与最大似然拟合相对应。例如,p超过伯努利试验,则该先验将是极限分布Beta(0,0)

现实生活中机器学习的成功通常是多种哲学的结合。例如,“随机字段” 源自 MaxEnt原理。该想法的最流行实现是正则化CRF,它涉及在参数上添加“优先级”。结果,该方法并不是真正的MaxEnt或贝叶斯方法,而是受到两种思想流派的影响。

我在这里这里已经收集了贝叶斯方法和MaxEnt方法的哲学基础的一些联系。

关于术语的注意事项:有时,人们有时仅在使用贝叶斯规则的情况下简单地称其方法为贝叶斯方法。同样,“ MaxEnt”有时用于支持高熵解的某些方法。这与如上所述的“ MaxEnt推论”或“贝叶斯推论”不同


1
谢谢。我不认为“科学的逻辑”也谈论过这些东西,我肯定会读那本书。
Francesco

19

对于对最大熵方法的有趣评论,我建议阅读sci.stat.math和sci.stat.consult上的一些旧新闻组帖子,尤其是Radford Neal的文章:

我不知道maxent和其他方法之间的任何比较:问题的一部分似乎是maxent并不是一个真正的框架,而是一个模棱两可的指令(“当面对未知数时,只需最大化熵”),这就是不同的人以不同的方式解释。


4
(+1)2002线程是一个思想交流的地狱。
ub

1
请注意,Edwin Jaynes在概率论中给出的maxent的“ wallis推导”:科学逻辑确实给出了使熵最大化的“实验”原理。在离散分布中,如果我们从无差异原则(PID)开始,然后基本上对概率执行拒绝采样,则使用约束条件来接受或拒绝随机均匀样本。然后,所得的概率任意接近最大(最大)分布。
概率

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.