如何从日志空间中的离散（分类）分布中采样？

12

假设我有一个由向量定义的离散分布这样将以概率来绘制类别。然后，我发现分布中的某些值是如此之小，以至于淹没了我计算机的浮点数表示形式，因此，为了补偿，我在对数空间中进行了所有计算。现在我有一个日志空间向量。 $\theta_0, \theta_1, ..., \theta_N$ $0$ $\theta_0$ $log(\theta_0), log(\theta_1), ..., log(\theta_N)$

是否可以从分布中采样，以使原始概率成立（类别是用概率绘制的），而又不会离开对数空间？换句话说，如何从该分布中采样而不会出现下溢？ $i$ $\theta_i$

random-generation

— 乔什·汉森（Josh Hansen）
source

15

可以使用Gumbel-max技巧从给定对数概率的类别分布中进行采样而不会留下对数空间。这个想法是，如果给您未标准化的对数概率，则可以使用softmax函数将其转换为适当的概率 $\alpha_1,\dots,\alpha_k$

p_{i} = \frac{\exp (α_{i})}{\sum_{j} \exp (α_{j})}

$p_i = \frac{\exp(\alpha_i)}{\sum_j \exp(\alpha_j)}$

然后从这样的分布中采样，可以使用以下事实：如果是从位置为参数化的标准Gumbel分布中获取的独立采样， $g_1,\dots,g_k \sim \mathcal{G}(0)$ $m$

F (G \leq g) = \exp (- \exp (- g + m))

$F(G \le g) = \exp(-\exp(-g+m))$

然后可以显示（请参阅下面的参考）

\begin{aligned} \underset{i}{a r g m a x} {g_{i} + α_{i}} & \sim \frac{\exp (α_{i})}{\sum_{j} \exp (α_{j})} \\ max_{i} {g_{i} + α_{i}} & \sim G (\log \sum_{i} \exp {α_{i}}) \end{aligned}

$\DeclareMathOperator*{\argmax}{arg\,max} \begin{align} \argmax_i \,\{\, g_i + \alpha_i \,\} &\sim \frac{\exp(\alpha_i)}{\sum_j \exp(\alpha_j)} \\ \max_i\,\{\, g_i + \alpha_i \,\} &\sim \mathcal{G}(\; \log\sum_i\exp\{\alpha_i\}\;) \end{align}$

我们可以拿

z = \underset{i}{a r g m a x} {g_{i} + α_{i}}

$z = \argmax_i \,\{\, g_i + \alpha_i \,\}$

作为以概率为参数的分类分布的样本。Ryan Adams和Laurent Dinh在博客条目中对此方法进行了更详细的描述，此外Chris J. Maddison，Daniel Tarlow和Tom Minka 在神经信息处理系统会议（2014）上发表了演讲（幻灯片），并撰写了一篇题为A *的论文。抽样概括了这些想法（另见Maddison，2016; Maddison，Mnih和Teh，2016; Jang和Poole，2016），提到耶洛特（1977）提到他是最早描述此房产的人之一。 $p_1,\dots,p_k$

这是很容易用它来实现逆变换采样通过取其中是从均匀分布借鉴了。从分类分布中进行采样当然不是最省时的算法，但可以让您留在日志空间中，这在某些情况下可能是一个优势。 $g_i=-\log(-\log u_i)$ $u_i$ $(0,1)$

Maddison，CJ，Tarlow，D.和Minka，T.（2014）。A *采样。[输入：]神经信息处理系统的进展（pp。3086-3094）。

耶洛特（Yellott，JI）（1977）。卢斯的选择公理，瑟斯顿的比较判断理论与双指数分布之间的关系。数学心理学杂志，15（2），109-144。

Maddison，CJ，Mnih，A.和Teh，YW（2016）。具体分布：离散随机变量的连续松弛。arXiv预印本arXiv：1611.00712。

Jang，E.，Gu，S.，＆Poole，B.（2016年）。使用Gumbel-Softmax进行分类重新参数化。arXiv预印本arXiv：1611.01144。

麦迪逊（CJ）（2016）。蒙特卡洛的Poisson过程模型。arXiv预印本arXiv：1602.05986。

— 蒂姆
source

5

这是避免下溢/上溢的一种常用方法。

令。 $m = \max_i \log(\theta_i)$

令。 $\theta_i' = \exp( \log(\theta_i) - m )$

您可以从进行采样。 $\theta' = [\theta_1' , \theta_2',...]$

— 悉达思（Siddharth Gopal）
source

1

只要任何一个值和最大值之间的差异都不太大，就exp可以使用该格式，当这种情况发生时，容器可能会失去精度，从而导致分布像[1.0，3.45e-66，0.0，7.54e-121] 。即使在那种情况下，我也想提供一些可靠的答案。但是目前，我支持您的回答。

— 乔什·汉森