MCMC的性能基准


14

是否有大规模的MCMC方法研究在一组测试密度上比较了几种不同算法的性能?我想到的是与Rios和Sahinidis的论文(2013)相同的东西,该论文将大量无衍生的黑盒优化器在几种测试函数上进行了全面比较。

对于MCMC,可以通过例如每个密度评估的有效样本数(ESS)或其他一些适当的指标来评估性能。

一些评论:

  • 我理解性能将在很大程度上取决于目标pdf的细节,但是对于优化而言,类似的参数(可能不相同)成立,尽管如此,仍有大量基准测试功能,套件,竞赛,论文等用于基准测试优化。算法。

  • 同样,MCMC与优化的不同之处还在于,需要更多的用户关注和调整。但是,现在有几种MCMC方法几乎不需要调整:在老化阶段,采样过程中适应的方法,或演化多个交互链并使用的多状态(也称为ensemble)方法(例如Emcee)。来自其他链条的信息以指导抽样。

  • 我对标准方法与多状态(又称为合奏)方法之间的比较特别感兴趣。有关多状态的定义,请参阅MacKay的书的 30.6节:

在多状态方法中,多个参数向量被保留;它们在大都会和吉布斯等举动下各自发展;向量之间也存在相互作用。X

  • 这个问题起源于这里

更新资料

  • 对于一个有趣采取多态又名集成方法,请参阅本博客文章由鲍勃·卡彭特格尔曼的博客,我的评论指这CV职位。

Answers:


5

经过一些在线搜索,我的印象是,不存在类似于在优化文献中可以找到的已建立的MCMC方法的综合基准。(我很高兴在这里犯错。)

在应用领域内,很容易找到一些针对特定问题的MCMC方法的比较。如果我们可以汇总这些信息,这没关系-但是,此类基准的质量通常不足(例如,由于所报告的度量标准不足或设计选择不当)。

在下文中,我将发布我认为有价值的贡献:

  • Nishihara,Murray和Adams,具有广义椭圆切片采样的并行MCMC,JMLR(2014)。作者提出了一种新颖的多状态方法GESS,并与其他6种单状态和多状态方法在7个测试函数上进行了比较。他们将每秒和每次功能评估的性能评估为ESS(有效样本大小)。

  • SamplerCompare是一个R程序包,旨在对MCMC算法进行基准测试-正是我最初提出的问题。不幸的是,该软件包仅包含一些测试功能。随附的文件未报告任何实际基准(仅是一个小例子);而且似乎没有后续行动。

Thompson,MadeleineB。“ SamplerCompare简介”。Journal of Statistics Software统计软件) 43.12(2011):1-10(链接)。

  • 对于一个有趣采取多态又名集成方法,请参阅本博客文章由鲍勃·卡彭特格尔曼的博客,我的评论指这CV职位。

您的第二个链接已死-您可以将其更改为可用的链接吗?
蒂姆

您可能想看看2017年12月的这篇论文:Ryan Turner和Brady Neal,您的采样器实际工作得如何?似乎可以为MCMC算法的良好基准提供一个巧妙的解决方案。
卡尔,

2

我同意您的评估,即没有为MCMC方法建立全面的基准。这是因为每个MCMC采样器都有优点和缺点,并且都是针对特定问题的。

在典型的贝叶斯建模设置中,当数据不同时,可以以不同的混合速率运行同一采样器。我要说的是,如果将来对各种MCMC采样器进行全面的基准研究,我将不相信该结果可用于所示示例之外。

关于使用ESS评估样品质量的问题,值得一提的是ESS取决于要从样品中估算的数量。如果要查找样本的均值,则获得的ESS与要估计第25个分位数时会有所不同。话虽如此,如果感兴趣的数量是固定的,ESS是比较采样器的合理方法。也许更好的主意是每单位时间使用ESS。

ESS的一个缺陷是,对于多元估计问题,ESS会分别为每个组件返回有效样本大小,而忽略了估计过程中的所有互相关性。在论文近日,多元ESS已经提出,并在执行Rmcmcse通过功能multiESS。目前尚不清楚该方法与coda软件包的ESS相比如何,但从一开始似乎比单变量ESS方法更合理。


2
(+1)感谢您的回答。我同意您的一些观点,但我仍然认为可以从这样的基准中获得一些信息。一个人如何使用这些基准测试的结果来指导未来的选择,这取决于它们-但是有些证据总比没有证据要好。关于ESS的好处。多状态是指多状态(或多链,如果您愿意的话),而不仅仅是多变量-在我最初的问题中,请参阅MacKay的书中的报价。
lacerbi

2
通常,已知一些采样器在多峰分布方面表现不佳(MH,Gibbs),而有些则对非凸面支持不利(Hamiltonian MC)。另一方面,对于高维问题,Hamiltonian MC效果很好,对于多峰分布,模拟回火等效果很好。为了进行任何基准测试,可能需要定义不同的目标分布类别(次指数,对数凹入等),以便通常可以解释结果。
Greenparker

1
是的,这就是为一类算法建立基准的全部要点。例如,见这个全局优化。显然,MCMC的基准测试不能仅仅借用现有的优化基准。正如您提到的那样,有必要关注目标密度的特征,这些特征是MCMC问题所特有的,共同的和令人感兴趣的。
lacerbi
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.