斯坦


16

我正在浏览Stan文档,可以从此处下载。我对他们实施Gelman-Rubin诊断程序特别感兴趣。最初的论文Gelman&Rubin(1992)定义了潜在的水垢减少因子(PSRF)如下:

令为第个采样的马尔可夫链,并让整个独立的链采样。假设为第链的均值,而为整体均值。定义 其中 并定义Xi,1,,Xi,NiMX¯iiX¯

W=1Mm=1Msm2,
sm2=1N1t=1N(X¯mtX¯m)2.
B
B=NM1m=1M(X¯mX¯)2.

定义 使用估算PSRF ,其中 其中。

V^=(N1N)W+(M+1MN)B.
[R= VR^d ˚F = 2 V / V - [R V
R^=V^Wdf+3df+1,
df=2V^/Var(V^)

第349页的Stan文档忽略了带有的术语,并且还删除了乘法项。这是他们的公式,中号+ 1 /中号df(M+1)/M

方差估计量为 最后,潜在的规模缩减统计量由 [R =

var^+(θ|y)=N1NW+1NB.
R^=var^+(θ|y)W.

据我所知,他们没有提供这种公式更改的参考,也没有讨论。通常不会太大,通常可以低至,因此即使项可以近似为1 ,也不应忽略2 中号+ 1 /中号d ˚FM2(M+1)/Mdf

那么这个公式是从哪里来的呢?


编辑: 我已经找到了“ 该公式从何而来?这个问题的部分答案,这是由盖尔曼,卡林,斯特恩和鲁宾(第二版)撰写贝叶斯数据分析书具有完全相同的公式。但是,这本书没有说明忽略这些术语的理由/理由。


尚无相关论文,无论如何该公式在未来几个月内都会改变。
本·古德里奇

@BenGoodrich感谢您的评论。关于使用此公式的动机,您还能说什么吗?以及为什么公式会改变呢?
Greenparker '18年

1
当前的拆分R-hat公式是最主要的方法,适用于只有一个链的情况。即将到来的变化主要是为了处理潜在的边缘后验分布可能不正常或具有均值和/或方差的事实。
本古德里奇

1
@BenGoodrich是的,我知道STAN为何拆分Rhat。但是即使在那种情况下,因此常数也是不可忽略的。中号+ 1 /中号= 3 / 2M=2(M+1)/M=3/2
Greenparker

Answers:


4

我遵循了Gelman&Rubin(1992)给出的特定链接 ,尽管后来的版本中它的 替换布鲁克斯&吉尔曼(1998)中,用在BDA2(吉尔曼等人,2003)和BDA3(吉尔曼等人, 2013)。 σ σ + ^ v 一个[R +

σ^=n1nW+1nB
σ^σ^+var^+

BDA2和BDA3(现在无法检查BDA1)进行了演练,并带有提示,表明是所需数量的无偏估计。var^+

Gelman&Brooks(1998)的方程为1.1 其可被重新安排作为 我们可以看到,当大时,第二项和第三项的影响对于决策而言可以忽略不计。另请参见Brooks&Gelman(1998)中第3.1节之前的段落中的讨论。 - [R = σ +

R^=m+1mσ^+Wn1mn,
R^=σ^+W+σ^+Wmn1mn.
n

盖尔曼和鲁宾(Gelman&Rubin)(1992)也将df定义为df /(df-2)。Brooks&Gelman(1998)的一节描述了为何此df校正不正确并定义(df + 3)/(df + 1)。Brooks&Gelman(1998)中第3.1节之前的段落说明了为什么可以删除(d + 3)/(d + 1)。

看来您的方程式来源是Brooks&Gelman(1998)之后的东西,因为那里有(d + 3)/(d + 1),而Gelman&Rubin(1992)则有df / df(-2)。否则,Gelman&Rubin(1992)和Brooks&Gelman(1998)具有等价的方程(符号略有不同,某些术语的排列方式也不同)。BDA2(Gelman等人,2003年)不再具有术语。BDA3(Gelman等,2003)和Stan引入了拆分链版本。σ^+Wmn1mn

我对使用不同版本的的论文和经验的解释是,当大时,即使不大,也可以忽略最终删除的项。我也隐约记得几年前与安德鲁·盖尔曼(Andrew Gelman)讨论过,但是如果您想确定历史,就应该问他。R^nm

通常M不会太大,通常可以低至2

我确实希望这种情况不会经常发生。在要使用split收敛诊断的情况下,应至少使用4条链拆分,因此M = 8。如果您已经知道在特定情况下收敛和混合很快,则可以使用较少的链。R^

附加参考:

  • Brooks and Gelman(1998)。计算与图形统计杂志,7(4)434-455。

是的,它具有与您提到的相同的,但其统计量为(看一下Stat Science正式版第495页顶部的方程式),它介绍了我在说的项。此外,请查看自1999σ^2R^(σ^2+B/mn)/Wdfterm(m+1)/m
。– Greenparker,

我很困惑。通过您提供的链接提供的文章以及Stat Science网页上的文章只有457-472页。我现在没有检查,但是几年前和去年当我检查Coda时,它没有当前的推荐版本。
Aki Vehtari

请注意,我编辑了答案。Gelman&Brooks(1998)更清楚地知道(m + 1)/ m项,您似乎错过了最后一个项,后者大部分抵消了(m + 1)/ m项对决策的影响。请参阅第3.1节之前的段落。
Aki Vehtari

抱歉,这是一个错字。在465页,Gelman和Rubin的定义与Brooks和Gelman相同(在上面已声明)。Brooks和Gelman中的方程式1.1正是我写下的内容(当您重新排列一些术语时)。
Greenparker

“我们可以看到,当n大时,第二项和第三项的影响对于决策而言可以忽略不计”,那么您要说的是BDA中的表达式以及因此的STAN基本上是忽略了大n项的?
Greenparker
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.