Metropolis Hastings,Gibbs,重要性和拒绝采样之间有什么区别?


36

我一直在尝试学习MCMC方法,并遇到了Metropolis Hastings,Gibbs,Importance和Rejection采样。尽管其中一些差异是显而易见的,例如,当我们拥有全部条件时,吉布斯是Metropolis Hastings的特例,而其他差异则不那么明显,例如当我们想在Gibbs采样器中使用MH等时,是否有人查看每种方法之间的大部分差异的简单方法?谢谢!


3
伊恩·穆雷(Iain Murray)至少在MCMC方面的演讲中很好地谈到了这一点。
gwr

2
我同意西安的看法,这是一个非常广泛的问题。您实际上是在询问关于四件事的大量信息,对其中任何一项的讨论(或两者之间的对比)都会使答案有些冗长。通过指出这四个都是蒙特卡洛方法,我们也许可以找到解决问题的方法,但重要采样和拒绝采样都不是MCMC(这并不是说它们不能在MCMC中使用)。
Glen_b

Answers:


47

正如我们与乔治·卡塞拉(George Casella)的《蒙特卡洛统计方法》一书中详细介绍的那样,这些方法用于从给定分布中产生密度为样本,以获取有关该分布的想法,或解决与该分布有关的积分或优化问题。。例如,要找到或当或该分布的分位数时,的分布模式。ff

Xh(x)f(x)dxh(X)R
h(X)Xf(x)

为了比较您在相关标准上提到的蒙特卡洛方法和马尔可夫链蒙特卡洛方法,您需要设置问题的背景和模拟实验的目标,因为每种方法的优缺点会因情况而异。

以下是一些一般性的评论,这些评论肯定不会涵盖问题的复杂性

  1. 接受拒绝方法旨在从提供iid样本。为了实现这一点,人们设计了一种算法,该算法将随机数的均匀变量作为输入,并返回一个值,该值是的实现。的优点是不存在的方法没有近似:结果是真正从独立同分布样本。的缺点很多:(ⅰ)通过找到的包络设计算法可以产生可用于人类的时间非常昂贵; (ii)该算法可能在计算时间上效率低下,即需要很多制服才能生成单个fu1,u2,xfffx; (iii)这些性能随着的大小而降低。简而言之,除非已经在诸如R的计算机语言中提供了此类方法,否则这些方法不能用于模拟一个或几个模拟。Xf
  2. 当iid仿真的成本太高时,马尔可夫链蒙特卡洛(MCMC)方法是iid仿真方法的扩展。它们产生一系列模拟,其极限分布为分布。的优点是:(i)约更少的信息被实现该方法需要的; (ⅱ)可以仅已知到归一化常数或甚至作为一个整体和仍与MCMC方法关联;(iii)存在通用MCMC算法来产生模拟(xt)tfff
    f(x)Zf~(x,z)dz
    (xt)t需要很少的校准;(iv)尺寸问题不大,因为可以将较大尺寸的目标分解为较小尺寸的条件(如Gibbs采样)。的缺点是:(i)所述仿真是相关的,比IID模拟因此较少信息; (ii)该方法的验证只是渐近的,因此对于固定将考虑为的实现存在一个近似值;(iii)收敛到(in)可能太慢,以至于所有实际目的该算法都不会收敛(xt)txttfft; (iv)该方法的普遍验证意味着存在无限数量的潜在实现方式,并且效率范围同样无限。
  3. 重要性采样方法最初是为积分近似设计的,即从错误的目标并通过重要性权重补偿因此,对得到的样本进行加权,从而与上述尴尬进行比较。但是,通过使用基于权重的附加重采样步骤,可以将重要性采样转换为重要性采样重采样。重要采样重采样的优点是:(i)重要目标生成可以便宜并且可以针对不同的目标回收;(ii)的“正确”选择g(x)
    f(x)/g(x).
    gfg与常规或MCMC采样相比,可以带来巨大的改进;(iii)重要性抽样更适合于数值积分的改进,例如准蒙特卡洛积分;(iv)它可以变成适应性版本,例如人口蒙特卡洛和顺序蒙特卡洛。的缺点是:(ⅰ)二次采样诱导效率(其可通过降低噪声如在系统重新采样或QMC被部分校正); (ii)的“错误”选择会导致效率的巨大损失,甚至导致无限的方差;(iii)重要性面临着大尺寸的麻烦,并且效率随着尺寸的增加而迅速降低;(iv)在缺少支持的重要区域时,该方法可能与局部MCMC方法一样近视。gf

总之,警告说没有最佳仿真方法。即使在近似整数的特定设置下,设计和运行不同方法的成本也会因要使微妙的全局比较非常细微,甚至在可能的情况下,从正式的角度来看,它们永远都无法克服返回常数“估计”例如,从模拟几乎是最好的选择。这并不意味着无法比较这些方法,而是总有可能进行改进,但会带来额外的成本。

I=Xh(x)f(x)dx,
I^=Xh(x)f(x)dx
f

当您说“结果确实是来自的iid样本”时,是否意味着没有必要进行预热期并且您需要的后验样本要少得多(因为没有自相关)?f
TrynnaDoStat

我只是想知道在贝叶斯分析方案中h(x)具体含义是什么h(x)f(x)dx。给定先验和数据,我们试图得到后验。但是,似乎所有这些采样方法实际上都在试图逼近f(x)。那么可以说f(x)已经是我们所要寻找的后验h(x)函数了,它只是我们也可以将其与后验函数组合在一起的任意函数f(x)吗?还是我不正确地理解它。谢谢。
xji

实际上,这是一种特殊情况,当为后验概率或先验x可能性时。而是后期望是感兴趣的任意函数。˚Fħ
Xh(x)f(x)dx
fh
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.