Metropolis-Hastings集成-为什么我的策略不起作用？

假设我有一个函数，我想集成当然，假设在端点处为零，没有爆炸，功能很好。一种方式，我已经和摆弄是使用大都市斯算法来生成列表的样品从分配比例，以，其缺少归一化常数，我将其称为，然后在这些上计算一些统计量： $g(x)$

\int_{- \infty}^{\infty} g (x) d x .

$\int_{-\infty}^\infty g(x) dx.$

g (x)

$g(x)$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \dots, x_n$

g (x)

$g(x)$

N = \int_{- \infty}^{\infty} g (x) d x

$N = \int_{-\infty}^{\infty} g(x)dx$

p (x)

$p(x)$

f (x)

$f(x)$

x

$x$

\frac{1}{n} \sum_{i = 0}^{n} f (x_{i}) \approx \int_{- \infty}^{\infty} f (x) p (x) d x .

$\frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx.$

由于，我可以用代替以从积分中消除，从而得到形式的表达式因此，假设沿该区域积分为，我应该得到结果，我可以取倒数来获得我想要的答案。因此，我可以取样品的范围（以最有效地利用这些点），让我绘制的每个样品的。这样 $p(x) = g(x)/N$ $f(x) = U(x)/g(x)$ $g$

\frac{1}{N} \int_{- \infty}^{\infty} \frac{U (x)}{g (x)} g (x) d x = \frac{1}{N} \int_{- \infty}^{\infty} U (x) d x .

$\frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx.$

U (x)

$U(x)$

1

$1$

1 / N

$1/N$

r = x_{max} - x_{min}

$r = x_\max - x_\min$

U (x) = 1 / r

$U(x) = 1/r$

U (x)

$U(x)$ 在我的样本不在的区域之外，结果为零，但在该区域积分为

1

$1$ 。因此，如果现在我取期望值，我应该得到：

E [\frac{U (x)}{g (x)}] = \frac{1}{N} \approx \frac{1}{n} \sum_{i = 0}^{n} \frac{U (x)}{g (x)} .

$E\left [\frac{U(x)}{g(x)}\right ] = \frac{1}{N} \approx \frac{1}{n} \sum_{i=0}^n \frac{U(x)}{g(x)}.$

我尝试在R中针对示例函数 $g(x) = e^{-x^2}$ 。在这种情况下，我不使用Metropolis-Hastings来生成样本，而是使用实际概率rnorm来生成样本（仅用于测试）。我没有完全得到想要的结果。基本上，我要计算的完整表达式为：

\frac{1}{n (x_{max} - x_{min})} \sum_{i = 0}^{n} \frac{1}{e^{- x_{i}^{2}}} .

$\frac{1}{n(x_{\max} - x_\min)} \sum_{i=0}^n \frac{1}{ e^{-x_i^2}}.$ 在我的理论上，这应该评估为

1 / \sqrt{π}

$1/\sqrt{\pi}$ 。它接近了，但肯定不会以预期的方式收敛，我做错了吗？

ys = rnorm(1000000, 0, 1/sqrt(2))
r = max(ys) - min(ys)
sum(sapply(ys, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.6019741. 1/sqrt(pi) = 0.5641896

编辑CliffAB

我使用范围的原因只是为了轻松定义一个函数，该函数在我的点所在的区域内为非零值，但是在范围内积分为。该函数的完整规范为：我不必使用作为这种均匀密度。我本可以使用其他一些积分为密度，例如概率密度但是，这会使各个样本的求和变得微不足道，即 $1$ $[-\infty, \infty]$

U (x) = {\begin{cases} \frac{1}{x_{max} - x_{min}} & x_{max} > x > x_{min} \\ 0 & otherwise. \end{cases}

$U(x) = \begin{cases} \frac{1}{x_\max - x_\min} & x_\max > x > x_\min \\ 0 & \text{otherwise.} \end{cases}$

U (x)

$U(x)$

1

$1$

P (x) = \frac{1}{\sqrt{π}} e^{- x^{2}} .

$P(x) = \frac{1}{\sqrt{\pi}} e^{-x^2}.$

\frac{1}{n} \sum_{i = 0}^{n} \frac{P (x)}{g (x)} = \frac{1}{n} \sum_{i = 0}^{n} \frac{e^{- x_{i}^{2}} / \sqrt{π}}{e^{- x_{i}^{2}}} = \frac{1}{n} \sum_{i = 0}^{n} \frac{1}{\sqrt{π}} = \frac{1}{\sqrt{π}} .

$\frac{1}{n} \sum_{i=0}^n \frac{P(x)}{g(x)} = \frac{1}{n} \sum_{i=0}^n \frac{e^{-x_i^2}/\sqrt{\pi}}{e^{-x_i^2} } = \frac{1}{n} \sum_{i=0}^n \frac{1}{\sqrt{\pi}} = \frac{1}{\sqrt{\pi}}.$

我可以尝试将该技术用于其他积分为分布。但是，我仍然想知道为什么对于统一分发它不起作用。 $1$

— 迈克·弗林
source

只快速浏览一下，所以我不确定您为什么决定使用range（x）。有条件的是它是有效的，效率极低！该大小的样本范围几乎是您可能获得的最不稳定的统计数据。

— 悬崖AB

@CliffAB使用该范围对我来说没有什么特别之处，除了在我的点所在的区间上定义均匀分布之外。查看修改。

— Mike Flynn

我将在后面详细介绍。但是要考虑的事情是，好像x是一组统一RV，则当，范围。但是，如果x是一组非变性正常RV，则作为，。

n \to \infty

$n \rightarrow \infty$

(x) \to 1

$(x) \rightarrow 1$

n \to \infty

$n \rightarrow \infty$

range (x) \to \infty

$\text{range}(x) \rightarrow \infty$

— Cliff AB 2015年

@CliffAB您可能是对的，我认为原因是积分的边界不固定，因此估计量的方差永远不会收敛...

— Mike Flynn 2015年

这是一个最有趣的问题，涉及基于基于相同密度的MCMC输出来近似密度的归一化常数的问题。（附带说明是，正确的假设是是可积的，无穷大为零是不够的。） $g$ $g$ $g$

我认为，与您的建议相关的与该主题最相关的条目是Gelfand和Dey（1994，JRSS B）发表的一篇论文，作者开发了一种非常相似的方法来找到从。本文的一个结果是，对于任何概率密度 [这等于您的 ]，使得以下身份显示来自的样本可以产生一个

\int_{X} g (x) d x

$\int_\mathcal{X} g(x) \,\text{d}x$

p (x) \propto g (x)

$p(x)\propto g(x)$

α (x)

$\alpha(x)$

U (x)

$U(x)$

{x; α (x) > 0} \subset {x; g (x) > 0}

$\{x;\alpha(x)>0\}\subset\{x;g(x)>0\}$

\int_{X} \frac{α (x)}{g (x)} p (x) d x = \int_{X} \frac{α (x)}{N} d x = \frac{1}{N}

$\int_\mathcal{X} \dfrac{\alpha(x)}{g(x)}p(x) \,\text{d}x=\int_\mathcal{X} \dfrac{\alpha(x)}{N} \,\text{d}x=\dfrac{1}{N}$

p

$p$ 重要采样估计量对的 无偏评估 显然，估计器的性能（收敛速度，方差的存在，和TC。）不依赖于选择 [即使它的期望没有]。在贝叶斯框架中，Gelfand和Dey提倡的选择是采用，即先验密度。这导致，其中是似然函数，因为

1 / N

$1/N$

\hat{η} = \frac{1}{n} \sum_{i = 1}^{n} \frac{α (x_{i})}{g (x_{i})} x_{i} \overset{iid}{\sim} p (x)

$\hat\eta=\frac{1}{n}\sum_{i=1}^n \dfrac{\alpha(x_i)}{g(x_i)}\qquad x_i\stackrel{\text{iid}}{\sim}p(x)$

\hat{η}

$\hat\eta$

α

$\alpha$

α = π

$\alpha=\pi$

\frac{α (x)}{g (x)} = \frac{1}{ℓ (x)}

$\dfrac{\alpha(x)}{g(x)} = \dfrac{1}{\ell(x)}$

ℓ (x)

$\ell(x)$

g (x) = π (x) ℓ (x)

$g(x)=\pi(x)\ell(x)$ 。不幸的是，所得到的估计是调和平均估计器，也被称为最坏蒙特卡洛估计过由来自多伦多大学的Radford Neal。因此，它并不总是能很好地解决问题。甚至几乎没有。

\hat{N} = \frac{n}{\sum_{i = 1}^{n} 1 / ℓ (x_{i})}

$\hat{N}=\dfrac{n}{\sum_{i=1}^n1\big/\ell(x_i)}$

您使用样本范围以及该范围内的均匀性的想法与谐波均值问题相关：此估计量没有方差，仅是因为出现在分子中（我怀疑总是无限制的支持！），因此非常缓慢地收敛到归一化常数。例如，如果您多次重新运行代码，则在10次迭代后将获得非常不同的数值。这意味着您甚至无法相信答案的大小。 $(\min(x_i),\max(x_i))$ $\exp\{x^2\}$

解决此无限方差问题的通用方法是将使用更集中的密度，例如使用样本的四分位数，因为然后在此时间间隔内保持较低界限。 $\alpha$ $(q_{.25}(x_i),q_{.75}(x_i))$ $g$

在使代码适应这种新密度时，近似值更接近： $1/\sqrt{\pi}$

ys = rnorm(1e6, 0, 1/sqrt(2))
r = quantile(ys,.75) - quantile(ys,.25)
yc=ys[(ys>quantile(ys,.25))&(ys<quantile(ys,.75))]
sum(sapply(yc, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.5649015. 1/sqrt(pi) = 0.5641896

我们在与Darren Wraith和Jean-Michel Marin的两篇论文中详细讨论了这种方法。

— 西安
source