MCMC; 我们能否确定从后方获得“纯”和“足够大”的样本?如果我们不这样做怎么办?


12

引用此主题:您将如何向非专业人士解释Markov Chain Monte Carlo(MCMC)?

我可以看到它是马尔可夫链和蒙特卡洛的组合:创建了一个马尔科夫链,其后部为不变极限分布,然后从极限分布(=我们的后部)中进行了蒙特卡洛绘制(从属)。

可以说(我想在这里简化),经过步后,我们处于极限分布(*)。ΠLΠ

马尔可夫链是一个随机变量序列,我得到一个序列,其中是随机变量,是极限'我们希望从中取样的“随机变量”。 X ΠX1,X2,,XL,Π,Π,Π,ΠXiΠ

MCMC从初始值开始,即是一个随机变量,所有质量均为该值。如果我将大写字母用于随机变量,将小写字母用于随机变量的实现,那么MCMC会给我一个序列。因此,MCMC链的长度为L + n。X 1 X 1X 2X 3... X 大号π 1π 2π 3π ñX1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* *:大写字母是随机变量(即一堆结果),小是结果,即一个特定值。*]]x

显然,只有属于我的“后验”,为了近似“后验”,的值应“足够大”。 ñπin

如果我对此进行总结,那么我有一个MCMC链的长度,只有与我的后验近似有关,并且应该足够大。 Ñ = 大号+ Ñ π 1π 2... π Ñ Ñx1,x2,x3,xL,π1,π2,π3,....πnN=L+nπ1,π2,,πnn

如果在后验逼近的计算中确实包括一些(即在达到不变分布之前的实现),那么它将是“嘈杂的”。xi

我知道MCMC链的长度,但是不知道,即我确定要从极限分布中采样的步骤,因此我不能确定自己没有包含噪声,也不能确保,即来自极限分布的样本大小,尤其是我不确定它是否“足够大”。 L n = N - LN=L+nLn=NL

因此,据我所知,这个值对于后验近似质量(从中排除噪声和大量样本)至关重要L

当我应用MCMC时,有什么方法可以找到的合理估计?L

(*)我认为通常,将取决于初始值。x 1Lx1

Answers:


6

TL DR;你无法估计,因为。因此,简化假设永远不可能真正实现。(也许在某些情况下,但在MCMC的一般世界中却不是)。但是,您可以决定会使早期偏差变小。大号= ÑLL=N


本质上,您的问题归结为“我们如何估算老化时间?”。老化是因为马尔可夫链尚未收敛而丢弃初始样本的行为。有许多MCMC诊断程序可帮助您估计“老化”时间,您可以在此处查看它们的评论。

关于老化,有两门贯通的方法:流行的方法是使用其中一种诊断方法来确定是什么,并丢弃样本,而通过它的第二个流派,第一个样本无关紧要,因此不必担心。查理·盖尔有咆哮关于这一点,我同意。L LLLL

现在,我转向您问题的更多技术细节。

您在问题中做出的一个简化假设是,最终(在步骤之后)采样器将从限制分布中开始绘制。因此,经过步骤后,您的样本是纯抽签,尽管是相关的。这是不正确的。严格来说,是。马尔可夫链永远不会真正在有限时间内收敛到极限分布。因此,估计几乎没有意义。LLLL

提出此问题的另一种方式是:是多少,使得在经过步之后,马尔可夫链与限制分布“足够接近”。这是大多数诊断程序试图回答的问题。越来越多的人同意,上面的诊断方法通常是非常自由的,并且可以在“收敛”之前进行诊断。这里是一个说明一些诊断的弱点的纸。LL

上面什么要求用户做的却是不用担心,担心。通常,用户对整个后验分布不感兴趣,而是对特定数量感兴趣。通常,此数量是后验的平均值,或者可以写为期望值的任何其他函数。这是MCMC的“蒙特卡洛”部分出现的地方,因为蒙特卡洛表示要估算与求和的积分。因此,如果是您的马尔可夫链(请注意,由于是,所以我将忽略,而我们想估计后均值(),则 LNX1,X2,X3,,XNLLθ

θ¯N=1Ni=1NXi.

这个想法是,如果足够大,则样本的初始偏差将不明显。当然,如果起始值与极限分布的高概率空间相差甚远,则用户可以视线投掷并丢弃前几个样本。这与估计不同,因为它不是估计,而是对明显损坏的样本的有教养的忽略。NL

现在的问题当然是:应该是多大?答案应取决于我们要对进行估计的程度。如果我们想要一个很好的估计,那么我们想要更多的样本,如果一个好的估计就足够了,那么使用较小的样本就可以了。这也正是标准统计问题中发生的情况。Nθ

量化估计的“优度”的方式是认为,“关于蒙特卡洛误差,我们能说什么?在合理条件下,实际上存在马尔可夫链CLT,指出作为,对于任何初始分布(θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

其中中的和是渐近协方差矩阵。这里的关键是,对于任何初始分布,结果都是正确的。 ΣθRpΣ

当小时,我们知道估算器是好的。提出了这一想法停止,和我的答案在这里总结了他们的方法。他们论文中的结果也与过程的初始分布无关。Σ/N


答案为(+1),我知道应该是,我明确地说是在简化。就您的CLT而言,分配收敛是否应为?对于,是在删除老化值之后计算的,因为如果在删除老化值之后,问题仍然存在?(请问TL DR是什么意思?)感谢您的论文,我详细阅读了该文件Σ / Ñ θ ÑLΣ/nθ^N

固定一个错字,它应该是。是根据所有样本计算得出的,不会丢失任何内容。TL DR的意思是“太长,没读”。我忘了补充一点,CLT适用于任何初始发行版。我会补充。ˉ θ ÑΣ/Nθ¯N
Greenparker'9

我还有一个问题:在MCMC的Flegal,Haran和Jones的论文中:我们可以推算第三个有效数字吗?在公式(3)下,它表示假设。这是否意味着在估算时我应该考虑一下疲劳?ˉ ÑX1πg¯n

@fcop该行仅用于描述期望。不假定,但是期望值是关于公式中的的。πX1ππ
Greenparker'9
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.