Answers:
并非基于我的知识,而是我认为与该问题非常相关的一篇论文(用非常简洁的英语撰写): Blei,Kucukelbir和McAuliffe,2016年。https://arxiv.org/abs/1601.00670
从摘要:
现代统计的核心问题之一是近似难以计算的概率密度。这个问题在贝叶斯统计中尤为重要,贝叶斯统计将所有关于未知量的推论构造为涉及后验密度的计算。在本文中,我们回顾了变分推理(VI),这是一种来自机器学习的方法,可以通过优化来近似概率密度。VI已在许多应用程序中使用,并且往往比经典方法(例如马尔可夫链蒙特卡洛采样)更快。VI背后的想法是首先确定一个密度族,然后找到与目标族接近的那个族的成员。。接近度通过Kullback-Leibler散度来度量。我们回顾了均值场变分推论背后的思想,讨论了应用于指数族模型的VI的特殊情况,给出了高斯贝叶斯混合的完整示例,并推导了使用随机优化来扩展到海量数据的变体。我们讨论VI中的现代研究,并强调重要的开放性问题。VI功能强大,但尚未被很好地理解。我们希望在撰写本文时,希望能促进对此类算法的统计研究。
他们还为统计人员何时应该使用马尔可夫链蒙特卡洛采样以及何时进行变分推断提供了指导(请参阅文章中的“ 比较变分推断和MCMC ”)。