MaxEnt和贝叶斯推断方法对应于将信息合并到建模过程中的不同方式。两者都可以放在公理基础上(约翰·斯基林的“最大熵公理”和考克斯的“可能推论的代数”)。
如果您的先验知识是假设空间上可测量的实值函数(即所谓的“先验”)的形式,那么贝叶斯方法将直接适用。当信息来自假设空间的一组严格约束条件时,MaxEnt很简单。在现实生活中,知识既不是“先验”形式也不是“约束”形式,因此,方法的成功取决于您以相应形式表示知识的能力。
在玩具问题上,当先验匹配假设的真实分布时,贝叶斯模型平均将为您提供最低的平均对数损失(在许多模型绘制中进行平均)。当满足其约束条件时(最糟糕的情况优先考虑),MaxEnt方法将为您提供最低的最坏情况对数损失
被认为是“ MaxEnt”方法之父的ETJaynes也依赖贝叶斯方法。在其书的第1412页中,他给出了一个例子,其中贝叶斯方法产生了很好的解决方案,然后给出了一个例子,其中MaxEnt方法更加自然。
最大似然性实质上是将模型置于某个预定的模型空间内,并试图“尽可能难地”使其适应,因为在这种情况下,对所有数据的限制仅在模型选择方法中,它对数据的敏感性最高。空间。尽管MaxEnt和Bayesian是框架,但是ML是一种具体的模型拟合方法,对于某些特定的设计选择,ML可以最终使该方法来自Bayesian或MaxEnt方法。例如,具有相等约束的MaxEnt等同于某个指数族的最大似然拟合。类似地,对贝叶斯推断的近似可以导致正规化的最大似然解。如果您选择先验后得出结论对数据最大程度地敏感,则贝叶斯推断的结果将与最大似然拟合相对应。例如,p超过伯努利试验,则该先验将是极限分布Beta(0,0)
现实生活中机器学习的成功通常是多种哲学的结合。例如,“随机字段” 源自 MaxEnt原理。该想法的最流行实现是正则化CRF,它涉及在参数上添加“优先级”。结果,该方法并不是真正的MaxEnt或贝叶斯方法,而是受到两种思想流派的影响。
我在这里和这里已经收集了贝叶斯方法和MaxEnt方法的哲学基础的一些联系。
关于术语的注意事项:有时,人们有时仅在使用贝叶斯规则的情况下简单地称其方法为贝叶斯方法。同样,“ MaxEnt”有时用于支持高熵解的某些方法。这与如上所述的“ MaxEnt推论”或“贝叶斯推论”不同