什么是重要性抽样?


Answers:


15

重要性采样是从与关注的分布不同的分布中采样的一种形式,以便更轻松地从关注的分布中获得参数的更好估计。通常,与直接从具有相同样本大小的原始分布进行采样所获得的参数相比,这将提供具有较低方差的参数估计。

它适用于各种情况。通常,来自不同分布的采样允许在应用程序指定的目标分布的一部分(重要区域)中获取更多样本

一个例子可能是您想要一个样本,其中包含来自分布尾部的样本多于来自感兴趣分布的纯随机样本。

我在这个主题上看到的维基百科文章太抽象了。最好查看各种特定示例。但是,它确实包括指向有趣的应用程序(如贝叶斯网络)的链接

1940年代和1950年代重要性抽样的一个例子是方差减少技术(蒙特卡洛方法的一种形式)。例如 参见Hammersley和Handscomb撰写的《蒙特卡洛方法》(Monte Carlo Methods),该书于1964年作为Methuen专着/ Chapman和Hall出版,并于1966年再版,之后被其他出版商重新印刷。本书第5.4节介绍了重要性抽样。


2
补充说明:在RL中,您通常将重要性采样应用于策略:例如,从探查策略而不是您真正想要采样的实际策略中采样操作
DaVinci

3
这个答复开始时很好地解释什么是重要抽样做,但我却失望地发现它从来没有真正回答了什么重要抽样的问题:它是如何工作的?
ub

@whuber我的目的是向一个困惑的OP解释这个概念,并为他提供一些文献资料。这是一个很大的主题,并且在看似不同的应用程序中使用。其他人可能比我能用简单的术语更好地解释细节。我知道,当您决定回答问题时,会全力以赴,并提供精美的图表,并使用简单的语言仔细阅读技术细节。这些职位几乎总是以其清晰和完整的方式满足社区需求,我敢说也至少部分满足了OP。正如您所建议的那样,也许只需几个带有方程式的句子就足够了。
Michael R. Chernick

也许这对社区来说是一个更好的答案,而不仅仅是指向其他来源甚至提供链接。我只是觉得我所做的足够了,并且承认自己是统计学新手的OP应该首先自己做出一些努力。
Michael R. Chernick

5
你有一定道理。不过,我不知道,是否可能仅用一两个句子(没有数学,没有图表,几乎不需要任何额外的工作)就可以回答所提出的问题。在这种情况下,说明将必须强调,一个人正在估计期望值(而不仅仅是任何“参数”),然后可能指出,由于期望值是值和概率的乘积,因此,通过改变概率,可以得到相同的结果(到易于采样的分布)并调整值以对此进行补偿。
ub

33

重要采样是旨在逼近积分的模拟或蒙特卡洛方法。术语“采样”有些混乱,因为它不打算提供给定分布中的采样。

重要性抽样的直觉是,定义明确的积分,例如 可以表示为对概率分布: 其中表示密度的概率分布由和确定。(请注意,通常与。)实际上,选择 导致和 = ë ˚F [ ħ X ] = X ħ X ˚F X

I=Xh(x)dx
f H h f H h H x = h x
I=Ef[H(X)]=XH(x)f(x)dx
fHhfH()h() Hxfx=hxI=Ef[HX]-ffx>0hx0-f
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]下在载体上的一些限制,这意味着时。因此,正如W. Huber在其评论中所指出的那样,将积分表示为期望并没有统一性,但是相反,无数个这样的表示形式,其中一些曾经是比较的标准他们被采用。例如,迈克尔·切尔尼克(Michael Chernick)提到选择来减小估计量的方差。ff(x)>0h(x)0f

一旦理解了这个基本属性,该想法的实现就是像其他蒙特卡洛方法那样依靠大数定律,即,[通过伪随机生成器]模拟一个iid样本从分布式和使用近似 ,其˚F = 1(x1,,xn)f

I^=1ni=1nH(xi)
  1. 是的无偏估计量I
  2. 几乎可以肯定地收敛到I

根据分布的选择,上述估计量可以具有或可以不具有有限方差。但是,总是存在选择,允许有限的方差,甚至允许任意小的方差(尽管实际上这些选择可能不可用)。还有选择,这些选择使重要性采样估计量的逼近度很低。即使包括Chatterjee和Diaconis的最新论文研究了如何比较具有无限方差的重要性采样器,这也包括方差无限大的所有选择。下图取自 ˚F ˚F fI^ffI^I我在博客对本文的讨论,并说明了无限方差估计量的收敛性较差。

具有重要性分布的重要性采样为Exp(1)分布目标分布为Exp(1/10)分布,并且感兴趣的函数$ h(x)= x $。 积分的真实值为$ 10 $。

重要性采样具有重要性分布,Exp(1)分布,目标分布,Exp(1/10)分布,关注函数。积分的真实值为。10h(x)=x10

[以下内容摘自我们的《蒙特卡洛统计方法》一书。]

以下来自Ripley(1987)的示例说明了为什么从包含在 的(原始)分布以外的分布中生成,实际上可能需要付费感兴趣,或者换句话说,将积分的表示形式修改为对给定密度的期望。X ħ X ˚F X f

Xh(x)f(x)dx

实施例(柯西尾概率) 假设所关心的量的概率,,即一个柯西变量大于,即, 当是通过经验评价平均 样本,此估计量的方差为(由于等于)。Ç0 1 2 p = + 2pC(0,1)2p p 1 = 1

p=2+1π(1+x2)dx.
p X 1... X
p^1=1mj=1mIXj>2
X1,,Xm p 1 - p /0.127 /p = 0.15C(0,1)p(1p)/m0.127/mp=0.15

考虑到的对称性,可以减少这种方差,因为平均 方差等于。 p 2 = 1C(0,1) p12p / 2m0.052 / m

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

这些方法的(相对)效率低下是由于在感兴趣域之外生成了一些值,在某种意义上,这些值与的近似无关。[这与Michael Chernick提到尾部区域估计有关。]如果写成 上述积分可以看作是的期望 ,其中。因此,的另一种评估方法是 为p p p = 1[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2)XU[0,2]p
p^3=121mj=1mh(Uj)
UjU[0,2]。的方差为 ,按部分积分表明它等于。而且,由于可以写成 也可以看作是的期望值 反对上的均匀分布,并且另一个评估为 当时,。各部分的相同积分表明的方差p^3(E[h2]E[h]2)/m0.0285/mp
p=01/2y2π(1+y2)dy,
14h(Y)=1/2π(1+Y2)[0,1/2]p
p^4=14mj=1mh(Yj)
YjU[0,1/2]p^4然后是 。0.95104/m

相比,通过使在方差的减小 是阶,这意味着,特别是,这种评价需要 要达到相同的精度,模拟比少倍。p^1p^4103100032p^1


5
谢谢@ Xi'an忙于以每个人都可以欣赏的方式来说明重要性抽样,我想比Bill Huber的要求还要满足。+1
Michael R. Chernick

2
我想指出的是,由于几个人的贡献,该职位最初被搁置了。我们提出了一个有用的线索。
Michael R. Chernick

5
克里斯蒂安,我想表示我的感谢,并表达一种荣幸的感觉,您正在积极地与我们分享如此出色的材料。
whuber

4
我只想对西安表示感谢,尽管他给了自己的一份,但西安还是很友好地做了一些编辑以改善我的回答。
Michael R. Chernick

3
这必须是stats.stackexchange上的最佳帖子之一。感谢分享!
dohmatob
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.