从不正确的混合物中进行精确采样


10

假设我要从连续分布进行采样。如果我有的表达的形式ppXp

pX=一世=1个一个一世F一世X

其中和f_i是可以从中轻松采样的分布,然后我可以通过以下方式轻松地从p生成采样:一个一世0一世一个一世=1个F一世p

  1. 以概率a_i对标签一世进行采样一个一世
  2. 采样XF一世

如果一个一世有时为负数,是否可以推广此过程?我怀疑我已经在某个地方看到过此操作-可能在书中,或者可能是在Kolmogorov发行版中-因此,我很高兴接受参考作为答案。

如果一个具体的玩具示例有帮助,假设我要从

pXÿ经验值-X-ÿ-αXÿXÿ>0
然后出于技术上的原因,将α02放在事情的总体方案中应该没太大关系。

原则上,我可以将其扩展为以下总和:

pXÿñ=0-1个ñαññ2ñ2ñXñ/2Ë-Xñ2ÿñ/2Ë-ÿñ2

然后可以从Gamma随机变量中独立采样和中的Xÿ。我的问题显然是系数“有时”为负。

编辑1:我澄清,我正在寻求从p生成精确样本,而不是在p下计算期望值。对于那些感兴趣的人,在注释中提到了一些这样做的过程。pp

编辑2:我在Devroye的“非均匀随机变量生成”中找到了包含针对此问题的特定方法的参考。该算法来自Bignami和de Matteis的“关于从分布组合中抽样的注释”。该方法有效地通过总和的正项从上方限制密度,然后基于此包络使用拒绝采样。这对应于@西安答案中描述的方法。


1
为什么不能仅使用的绝对值然后否定样本来采样?换句话说,定义(假设它是有限的),然后通过重新归一化您的和。 X ˚F ž = Σ = 1 | 一个| ž一个一世XF一世ž:=一世=1个|一个一世|ž
亚历克斯R.18年

2
@AlexR。如果我理解您的话,可以使用该版本的一个实用工具来计算下的期望值,但仍然不能从提取准确的样本。当然,这是对相关问题的解答,尽管不完全是我要找的东西。ppp
πr8

4
这取决于您打算如何处理该样本。例如,出于计算矩的目的,通过将从具有负系数的组件中选择的任意点另外标记为“负”点并在矩估计中对它的贡献进行负加权,可以很容易地从密度混合中概括采样。同样,只要您可以接受某些值可能为负的可能性,便可以使用负的权重构造KDE!(抄送@西安)
胡伯

1
分布的“精确”样本是什么?同样,是否以及如何利用负重量的混合物取决于您打算如何使用样品。
ub

1
这不能回答您的问题,但是您可能有兴趣阅读有关从对数概率stats.stackexchange.com/a/260248/35989
蒂姆

Answers:


5

我对此问题感到困惑,但从未提出令人满意的解决方案。

可能使用的一个属性是,如果密度写为 ,其中是a密度,使得从模拟,并以概率拒绝这些模拟,从而提供了模拟。在当前情况下,是正权重分量 和是余数 X ω ħ X ω ħ X /X ˚F X = Σ α > 0 α ˚F X / Σ α > 0 α ω ħ ħ X = Σ α

FX=GX-ωHX1个-ωω>0
GGXωHXGωHX/GXFG
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=α一世<0α一世F一世X/α一世<0α一世
在Devroye的模拟圣经中确实可以找到这一点,即非均匀随机变量生成,第II.7.4节,但遵循简单的接受-拒绝推理。

这种方法的第一个计算缺陷是,尽管首先从选定的分量模拟,但必须为拒绝步骤计算和的总和。如果总和是无穷大且没有封闭形式的版本,则这将使accept-reject方法无法实现ħF一世GH

第二个困难是,由于两个权重 的拒绝率是没有上限。实际上,如果与相关的级数不是绝对收敛的,则接受概率为零!并且该方法不能在这种情况下实现。1-ρ接受= Σ α < 0 | α| / i | α| α

α一世>0α一世=1个-α一世<0α一世
1个-ϱ接受=α一世<0|α一世|/一世|α一世|
α一世

在混合表示的情况下,如果可以写成 可以先选择组件,然后再将方法应用于该组件。但这可能难以实现,从可能的无限大的总和中确定适合对不一定可行。˚F X = &Sigma;= 1 α X - ω ħ X Fħ X - ω ħ X > 0

FX=一世=1个α一世G一世X-ω一世HX一世1个-ω一世ω一世>0
G一世H一世G一世X-ω一世HX一世>0

我认为更有效的解决方案可能来自于序列表示本身。Devroye,非均匀随机变量生成,第IV.5节,包含了许多级数方法。例如,以下算法用于目标的替代级数表示, 当 '小号收敛于零与和是密度: 一个X ñ ħ

FX=κHX{1个-一个1个X+一个2X-}
一个一世XñHDevroye的替代级数方法

最近已经在MCMC的有偏估计量的偏移的背景下考虑了该问题,例如在Glynn-Rhee方法中。还有俄罗斯轮盘赌估算器(与伯努利工厂问题有关)。以及公正的MCMC方法论。但是,符号问题无可逃避……这使得在伪密度方法中估算密度时其使用具有挑战性。

经过进一步的思考,我的结论是,没有一种通用的方法可以从该系列中生成实际的模拟结果(而不是 混合物,结果证明是错误的称呼),而无需对该系列的元素强加>结构,例如Devroye的圣经中的上述算法。的确,由于大多数(?)密度都允许上述类型的一系列扩展,因此这意味着存在某种通用仿真机...


谢谢!我也感谢其他参考。
πr8

1
还要感谢您非常详尽的回复和参考。我很高兴接受这个答案,因为它成功地在有限的时间内从生成了精确的样本。我可能会在某种程度上继续考虑这个问题。我唯一似乎有希望的其他想法是,将采样视为采样,以,并且可能存在一些几何洞察对于此表征很有用(我在想像上的切片采样器)。干杯! pp=λG-μHXGλGμH{XÿμHX<ÿ<λGX}
πr8

1
我对条件采样器的解释很差。基于集合的特征更清晰(我认为)。我的重点是,如果可以从最后一行的二维集中均匀采样,则坐标具有正确的分布。这种表征是否可以用于更长的基于和的不正确混合物还有待观察。XÿX
πr8

1
我也在考虑切片采样器,但是从仿真的意义上来说这并不是“精确的”。
西安

1

我有一个可行的想法草案。它不是精确的,但希望渐近精确。要将其转化为一种非常严格的方法,在这种方法中可以控制近似值,或者可以证明某些近似值,可能需要进行大量工作。

首先,正如西安所提到的,您可以一方面对正权重进行分组,另一方面对负权重进行分组,这样最终问题就只有两个分布和:GH

p=λG-μH

与。请注意,您有。λ-μ=1个λ1个

我的想法如下。您想要从采样观测值。做:ñp

  • 从采样值并将它们存储在列表中λñG
  • 对于从采样的每个值,从列表中删除它们最近的(剩余的)邻居。μñH

最后,您获得点。它不一定是最接近的邻居,而只是一个“足够接近”的点。第一步就像产生物质。第二步就像生成反物质,让它与物质碰撞并抵消。此方法并不精确,但我认为在某些情况下,它对于大来说是渐近精确的(要使其对小几乎精确,则需要先使用大,然后在最终列表中使用一小部分随机数) 。我给出一个非常非正式的论点,它更多的是解释,而不是证明。λ-μñ=ññññ

考虑在观察空间和体积小围绕与勒贝格音量。从采样后,列表中也在的元素数量大约为。第二步之后,将从中删除大约,并且您大约拥有所需的。为此,您需要假设体积中的点数足够大。XvXϵGvλñGXϵμñHXϵñpXϵ

这种方法极不可能抵抗大尺寸或和某些病状,但可能在小尺寸和足够平滑,“足够均匀”的分布中起作用。GH

请注意有关确切方法的信息:

我首先想到的是离散分布,显然在那种情况下该方法并不精确,因为它可以生成概率为0的样本。我有很强的直觉,即在有限的处理时间下不可能使用精确的方法,至少对于离散分布,这种可能性是可以证明的。游戏规则是,只允许您对和使用精确的“ oracle”采样器,但不知道和是函数。为了简单起见,只限于伯努利分布。确切方法的不存在与伯努利工厂理论有关:如果可以从创建 -coinGHGHXλp-μqp-coin和 -coin,则可以从 -coin 创建 -coin,这对于是不可能的。qλppλ>1个


1
我考虑了这一点,但拒绝了它,因为我最初的尝试来证明它可以起作用,这使人们意识到,它充其量只是一种近似,并且可能是一个贫穷的个体。是的,渐近地它可以工作,但是它不能满足OP对分发中“精确”采样的要求。
ub

该方法的效率与精确的接受-拒绝方法完全相同。
西安

1
同意 但是它们是完全不同的。accept-reject方法需要将和计算为函数。我专注于像真正混合一样,仅使用来自和采样作为“ oracle”采样器。我想得越多,我就越确信不存在基于抽样预言的精确方法。GHXGH
贝努瓦·桑切斯

1
我认为通常是正确的,但是在确实存在这种精确方法的特殊情况下,可能会有有用的类。这是因为(1)在某些情况下的计算很容易,并且(2)您不需要同时计算和-您只需要计算该比率。G/G+HGH
ub

@BenoitSanchez感谢您的深入回答;最后,我特别感谢有关(可能)准确性的评论。我过去遇到过伯努利工厂,发现它们颇具挑战性。我将尝试重新讨论该主题,并查看它是否提供任何见解。
πr8
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.