什么因素导致后部分布难以处理?


28

在贝叶斯统计中,经常提到后验分布是难处理的,因此必须采用近似推断。造成这种顽固性的因素有哪些?

Answers:


18

问题主要是贝叶斯分析涉及积分,在实际问题中通常是多维积分,而这些积分通常是解析上难以处理的(除非在少数特殊情况下需要使用共轭先验)。

相比之下,许多非贝叶斯统计量都是基于最大似然性 -找到(通常是多维的)函数的最大值,这涉及到其导数(即微分)的知识。即使这样,数值方法仍可用于许多更复杂的问题中,但如果没有它们,有可能会更频繁地获得数值,而且数值方法可能会更简单(即使不太简单的方法在实践中可能会表现更好)。

因此,我要说的是,差异远比整合容易处理。


14

我有机会亲自问戴维·布莱(David Blei)这个问题,他告诉我,在这种情况下,难以处理意味着两件事之一:

  1. 积分没有封闭形式的解决方案。这可能是在我们建模一些复杂的真实数据时,我们根本无法将分布写下来。

  2. 积分在计算上难以处理。他建议我用笔和纸坐下来,然后为高斯贝叶斯混合算出边际证据。您将看到它在计算上是难处理的,即指数的。他在最近的一篇论文中给出了一个很好的例子(请参阅2.1近似推断问题)。

FWIW,我发现这个单词选择令人困惑,因为(1)它的含义已超载,(2)它已在CS中被广泛使用,仅指计算上的可处理性。


5

实际上,存在多种可能性:

  1. 后面有一个封闭形式的表达式(例如: ,之前的:和后面的是分布),YBin(n,π)πBeta(a,b)p(π|Y=y)Beta(a+y,b+ny)
  2. 后是易于处理的最多的归一化常数(例如:,事先为是和)日志π Ñ μ σ 2p π | Ý = Ý α p Ý | π p π ÿ箱子ñπ日志πñμσ2pπ|ÿ=ÿpÿ|πpπ
  3. 数据生成过程是一个复杂的机制,它是如此复杂,以至于我们无法写下相似的线索(或者如果可能,它需要永远评估),但是我们可以从数据生成过程中进行模拟(例如,某种过程如何确定某些属性在人口中世代相传)。从上面的例子继续,在这种情况下,我们没有封闭形式表达式,但是可以模拟给定特定值的实现(我们什至不谈论我们有不知道数据是如何产生的...)。ÿ πpÿ|πÿπ

人们通常在谈论(分析上)不可处理的后验时表示(2),而在谈论不可处理的可能性时则表示(3)。在第三种情况下,近似贝叶斯计算是一种选择,而在第二种情况下,MCMC方法通常是可行的(您可能会认为在某种意义上是近似的)。我不确定,您所提供的报价是指这两个报价中的哪一个。


3

伸缩性与表达式的闭合形式有关

如果问题可以用封闭形式表达来解决,则可以说是易处理的。

在数学中,闭式表达式是可以在有限数量的运算中求值的数学表达式。它可能包含常量,变量,某些“众所周知”的运算(例如+-×÷)和函数(例如,第n个根,指数,对数,三角函数和反双曲线函数),但通常没有限制。封闭形式的表达式中允许的一组操作和函数可能会随作者和上下文而变化。

因此,难处理性意味着存在某种限制/无穷大(例如积分中的无穷求和),这些有限/无穷大无法通过有限的运算来求值,因此必须使用近似技术(例如MCMC)。

Wikipedia文章指向Cobham的论文,该论文试图形式化这种“操作量”,从而使其易于处理。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.