Answers:
要获得较长的答复,请在此处参阅Blei,Kucukelbir和McAuliffe 。这个简短的答案由此而来。
就是说,当我们有足够的计算时间来销毁并重视估算的精度时,MCMC就会获胜。如果为了方便起见我们可以忍受这一点(或者我们正在处理如此之大的数据,那么我们就必须做出权衡),VI是一种自然的选择。
或者,正如上述作者更雄辩而全面地描述的那样:
因此,变分推理适用于我们要快速探索许多模型的大型数据集和场景。MCMC适用于较小的数据集和场景,在这些场景中,我们很乐意为更精确的样本付出更高的计算成本。例如,我们可能会在这样的环境中使用MCMC:花费了20年的时间收集了一个小而昂贵的数据集,我们确信我们的模型合适,并且需要精确的推论。在将文本概率模型拟合到十亿个文本文档中时,我们可能会使用变分推理,在此情况下,这些推理将用于为大量用户提供搜索结果。在这种情况下,我们可以使用分布式计算和随机优化来扩展和加速推理,并且我们可以轻松地探索许多不同的数据模型。