从正态分布的有限混合中抽取样本?


10

经过一些贝叶斯更新步骤后,剩下的是正态分布混合形式的后验分布也就是说,参数\ theta是从一个分布中得出的,该分布的PDF是正常PDF的加权混合,而不是正常RV的总和。我想绘制样本\ theta \ sim \ Pr(\ theta | \ text {data})以用于此后验的重要性采样近似。实际上,i上的总和可能包含大量项,因此根据权重\ {w_i \}选择项i然后绘制\ theta \ sim N(\ mu_i,\ sigma ^ 2)θ θ θ |数据{ 瓦特 } θ Ñ μ σ 2

θ|数据=一世=1个ķw一世ñμ一世σ2
θθθ|数据一世一世{w一世}θñμ一世σ2。有没有一种从这种形式的后部提取样本的有效方法?

您是否实际尝试过select然后throw方法?可以合理地选择O(k)个步骤。
dmckee ---前主持人小猫,

1
如果Barron的解决方案确实不正确,并且您实际上是指“混合模型”,那么您可以使用该术语吗?
Neil G

1
尼尔·G:我不是行业统计学家,而是有时需要利用统计数据的物理学家。因此,我不知道描述我所需要的合适术语。不过,我现在可以继续编辑问题,以便更清楚地表明,正在汇总PDF而不是RV。
克里斯·格拉纳德

1
@ChrisGranade:我不是想贬低你。我只是想确保这就是您的意思,并提出修改建议。
尼尔·G

1
为什么基于权重和上均匀分布的样本选择,然后样本,选择是不切实际的?这仅比对单个正态分布进行采样要适度地昂贵,该成本与混合分布的数量无关,并且不依赖于那些正态分布。{ 瓦特 } [ 0 1 ] Ñ μ σ 2ķi{wi}[0,1]N(μi,σ2)ķ
杰德·布朗

Answers:


6

原则上,可以从每个子分布中预先选择要抽取的样本数量,然后仅访问每个子分布一次,然后抽取比点数多的数量。

那是

  1. 找到随机集,使并权重。n = k i = 1 n i<ñ1个ñ2ñķ>ñ=一世=1个ķñ一世

    我相信您可以通过为每个子分布绘制均值的多项式分布(请参见注释)的泊松分布,然后将总和标准化为。nw一世ññ

    这里的工作是ØķØñ

  2. 然后做

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    这里的工作是Øñ

尽管这意味着您不会以随机顺序获得。如果需要随机顺序,则必须将抽奖进行洗牌(也是大)。Øñ

看起来第一步似乎是运行时的主导,并且与朴素算法的顺序相同,但是如果您确定所有您都可以使用正态分布来近似泊松分布并加快第一步。w一世ñ1个


如果是固定的,则的分布不是泊松分布,而是二项分布。 ñniñ
弗雷德里克·格罗斯汉斯

@FrédéricGrosshansUhm ...在这里,我承认我令人痛苦的概率不足。看起来我认为您可能是对的。我没有抛出任意二项式分布的链接,但是Wikipedia有一些参考资料。泊松和二项式之间也有一种关系,我要说这是造成我不确定性的原因。是的,那是票。
dmckee ---前主持人小猫,

1
@dmckee:用于从混合模型绘制好的答案,不同之处在于它应该是一个多项分布,而不是在步骤1中的泊松分布
尼尔ģ

3

注意:此问题的原始版本询问了“正态分布的加权和”,下面的答案可能对您有用。但是,在对这个答案,@ Geoff的答案以及问题本身进行了很多讨论之后,很明显,这个问题确实是在对“正态分布的混合”进行采样,而这个答案不适用于该“正态分布的混合物”。


正态分布的总和是正态分布,因此您可以计算该单个分布的参数,然后从中简单地提取样本。如果我们将该分布称为那么,ñμsüσsü2

μsü=一世=1个ķw一世μ一世

σsü2=一世=1个ķw一世2σ一世2

3
简而言之,克里斯正在对概率密度函数求和,而不是对随机变量求和。
Geoff Oxberry 2012年

2
克里斯想要一个PDF(至少在原理上)包含多个凹凸。也就是说,他是PDF的总和,而不是总和的PDF。
dmckee ---前主持人小猫,

1
的确,正态分布的随机变量之和本身就是正态分布的随机变量。但是,正态分布的总和不是正态分布。因此,如果和,确实,但是。(有关说明,请访问@ChrisGranade。)X1个ñμ1个σ1个2X2ñμ2σ22X1个+X2ñμ1个+μ2σ1个2+σ22PdFX1个+X2PdFX1个+PdFX2
Geoff Oxberry

2
@dmckee:这不是“正态分布的加权和”,而是“正态分布的混合”。
Neil G

2
@Barron注释不被视为页面的必要部分。您绝对应该编辑您的答案,以包括评论的要点,以使不看评论的读者不会被误导。
David Ketcheson 2012年

2

更新:这个答案是不正确的,源于术语上的混乱(有关详细信息,请参见下面的评论链);我只是将其留作参考,以使人们不会再发布此答案(除了Barron)。请不要投票赞成或反对。

X1个ñμ1个σ1个2X2ñμ2σ22

X1个+X2ñμ1个+μ2σ1个2+σ22

w1个[R

w1个X1个ñw1个μ1个w1个2σ1个2

将这两个结果结合起来,然后

P[Rθ|d一个Ť一个ñ一世=1个ķw一世μ一世一世=1个ķw一世2σ一世2

因此,在这种情况下,您只需要从一个分布中提取样本,这应该更容易处理。


2
这是一个不同问题的解决方案,从原始分布是多模式的而您的建议是单模式的事实可以看出。
克里斯·费里

@ChrisFerrie:我相信你,但是基于这种表示法,我对为什么上面的分布将是多峰的而不是两个独立的高斯随机变量之和感到困惑。我在这里想念什么?
Geoff Oxberry 2012年

pX1个+X2pX1个+pX2一世

嗯,您正在查看PDF的总和。是的,那完全是另一种野兽。现在,我更加仔细地阅读了问题,我明白了您在说什么,并且我将删除我的答复。谢谢!
Geoff Oxberry 2012年

我取消删除了先前删除的答案,仅作为其他人的指南,因此没有人像Barron那样回答这个问题,而我也这样做。请不要再上下投票表决我的答案了。
Geoff Oxberry 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.