我正在研究一种自动检查Markov链蒙特卡洛方法的方法,并且我想举一些在构造或实现此类算法时可能发生的错误的示例。如果发表的论文使用了错误的方法,则加分。
我对错误表示链具有不正确的不变分布的情况特别感兴趣,尽管也会考虑其他类型的错误(例如链不是遍历)。
当Metropolis-Hastings拒绝提议的举动时,此类错误的示例将无法输出值。
我正在研究一种自动检查Markov链蒙特卡洛方法的方法,并且我想举一些在构造或实现此类算法时可能发生的错误的示例。如果发表的论文使用了错误的方法,则加分。
我对错误表示链具有不正确的不变分布的情况特别感兴趣,尽管也会考虑其他类型的错误(例如链不是遍历)。
当Metropolis-Hastings拒绝提议的举动时,此类错误的示例将无法输出值。
Answers:
1.边际可能性和调和均值估计器
所述边缘似然被定义为后验分布的归一化常数
这个数量的重要性来自它通过贝叶斯因素在模型比较中所扮演的角色。
已经提出了几种方法来近似该量。Raftery等。(2007年)提出了谐波均值估计器,由于其简单性,它很快流行起来。这个想法包括使用关系
因此,如果我们从后部有一个样品,说,这个量可以通过近似
这种近似与重要性采样的概念有关。
根据Neal 博客中讨论的大数定律,我们认为该估计量是一致的。问题在于,良好近似所需的可能很大。见尼尔的博客或罗伯特的博客1,2,3,4的一些例子。
备择方案
逼近有许多选择。肖邦和罗伯特(2008)提出了一些基于重要性抽样的方法。
2.没有足够长的时间运行MCMC采样器(特别是在存在多模式的情况下)
Mendoza和Gutierrez-Peña(1999)推导了两个正态平均值之比的参考先验/后验,并给出了使用真实数据集使用此模型获得的推论的示例。使用MCMC方法,他们获得均值φ的后验大小为的样本,如下所示
和获得用于HPD间隔(0.63 ,5.29 )。在分析后验分布的表达式后,很容易看到它在0处具有奇异性,并且后验实际上应该看起来像这样(请注意在0处的奇异性)
仅当您运行足够长的MCMC采样器或使用自适应方法时才能检测到。用这些方法之一中获得的HPD是如已经报道。HPD间隔的长度显着增加,这与将其与常用/经典方法相比时具有重要意义。
3. Gelman,Carlin和Neal 在本次讨论中还发现了一些其他问题,例如评估收敛性,初始值的选择,链条的不良行为。
4.重要抽样
Then, if we have a sample from , , we can approximate as follows
A possible issue is that should have tails heavier/similar than/to or the required for a good approximation could be huge. See the following toy example in R.
# Integrating a Student's t with 1 d.f. using a normal importance function
x1 = rnorm(10000000) # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))
# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))
Darren Wilkinson on his blog gives a detailed example of a common mistake in random walk Metropolis-Hastings. I recommend reading it in full, but here is the tl;dr version.
If the target distribution is positive (like Gamma distributions etc) in one dimension, it is tempting to reject proposals that have a negative value on that dimension straight away. The mistake is to throw away the proposals like they never happened and evaluate the Metropolis-Hastings (MH) acceptance ratio of the other ones only. This is a mistake because it amounts to using a non symmetric proposal density.
The author suggests to apply one of two fixes.
Count the "negatives" as failing acceptance (and lose a bit of efficiency).
Use the correct MH ratio in that case, which is
where is the target density and is the normalization constant of the truncated random walk proposal , i.e. .
A very clear case (connected with the marginal likelihood approximation mentioned in the first answer) where true convergence is the example of the problem of label switching in mixture models coupled with the use of Chib's (1995) estimator. As pointed out by Radford Neal (1999), if the MCMC chain does not converge correctly, in the sense that it does explore some of the mode of the target distribution, the Monte Carlo approximation of Chib fails to reach the right numerical value.