Dirichlet分布是多元分布。我们可以表示狄利克雷的参数作为表单的尺寸K的矢量〜,其中一个是大小的矢量ķ的参数,和ΣX我=1。1B(a)⋅∏ixai−1iaK∑xi=1
现在,LDA使用一些构造,例如:
- 一个文档可以有多个主题(由于多样性,我们需要Dirichlet分布);并且有一个Dirichlet分布对此关系进行建模
- 当您在文档之外考虑单词时,单词也可以属于多个主题;所以在这里我们需要另一个Dirichlet来对此建模
前两个是您实际上从数据中看不到的分布,这就是为什么被称为潜在分布或隐藏分布的原因。
xθ
p(θ|x)=p(x|θ)p(θ|α)p(x|α)⟺posterior probability=likelihood×prior probabilitymarginal likelihood
α
先验的参数称为超参数。因此,在LDA中,主题分布,文档和单词都具有相应的先验,通常用alpha和beta表示,并且因为先验分布的参数被称为超参数。
αkx
αk

αk

αk
另外,请注意,当参数值接近1时,先验参数的值会产生平滑的pdf分布。因此,如果您很有把握以一种高度自信的方式清楚地知道某事物的分布方式,绝对值远小于1的值将被使用,如果您不具备此类知识,则接近1的值将编码这种知识的缺乏。从分布本身的公式可以很容易看出为什么1在Dirichlet分布中起如此作用。
αkαk
希望能有所帮助。