alpha和beta超参数在潜在Dirichlet分配中起什么作用？

19

LDA有两个超参数，对其进行调整会更改所引发的主题。

α和β超参数对LDA有什么影响？

如果一个或另一个超参数增加或减少，主题将如何改变？

为什么它们是超参数，而不仅仅是参数？

topic-model lda parameter

— 阿尔瓦斯
source

这是一个很好的部分答案：stats.stackexchange.com/a/37444/156252

— 绿色

Answers:

16

Dirichlet分布是多元分布。我们可以表示狄利克雷的参数作为表单的尺寸K的矢量〜，其中是大小的矢量的参数，和。 $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

现在，LDA使用一些构造，例如：

一个文档可以有多个主题（由于多样性，我们需要Dirichlet分布）；并且有一个Dirichlet分布对此关系进行建模
当您在文档之外考虑单词时，单词也可以属于多个主题；所以在这里我们需要另一个Dirichlet来对此建模

前两个是您实际上从数据中看不到的分布，这就是为什么被称为潜在分布或隐藏分布的原因。

$x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ posterior probability = \frac{likelihood \times prior probability}{marginal likelihood}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$

先验的参数称为超参数。因此，在LDA中，主题分布，文档和单词都具有相应的先验，通常用alpha和beta表示，并且因为先验分布的参数被称为超参数。

$\alpha_k$ $x$

$\alpha_k$

$\alpha_k$

$\alpha_k$

另外，请注意，当参数值接近1时，先验参数的值会产生平滑的pdf分布。因此，如果您很有把握以一种高度自信的方式清楚地知道某事物的分布方式，绝对值远小于1的值将被使用，如果您不具备此类知识，则接近1的值将编码这种知识的缺乏。从分布本身的公式可以很容易看出为什么1在Dirichlet分布中起如此作用。

$\alpha_k$ $\alpha_k$

希望能有所帮助。

— 拉帕约
source

我们寄希望于tex支持！：D

— 鲁本斯

11

假设对称Dirichlet分布（为简单起见），较低的alpha值将使每个文档仅由几个主导主题组成（而较高的值将返回更多相对主导的主题）具有更大的权重。同样，较低的beta值将使每个主题仅由几个主要单词构成的重要性更高。

— 阿里雷扎
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.