LDA超参数的自然解释

21

有人可以解释LDA超参数的自然解释是什么吗？ALPHA和BETA是分别用于（按文档）主题和（按主题）单词分布的Dirichlet分布的参数。但是，有人可以解释一下选择这些超参数中的较大值与较小值的含义吗？这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见？

这个问题与潜在的Dirichlet分配有关，但是下面紧随其后的BGReene的评论涉及线性判别分析，该分析也令人困惑，也简称为LDA。

— Abhinavkulkarni
source

我认为您需要更详细地说明所使用的LDA配方。通常只有具有这些参数的RDA模型，LDA通常完全由均值向量，协方差矩阵和先验概率定义。

— BGreene 2012年

11

大卫·布莱（David Blei）在暑期班上向学生介绍了LDA的精彩演讲：http : //videolectures.net/mlss09uk_blei_tm/

在第一个视频中，他广泛介绍了主题建模的基本概念以及Dirichlet分发是如何发挥作用的。解释板符号时好像观察到所有隐藏变量都显示了相关性。基本上，主题是单词的分布，主题是文档的分布。

在第二个视频中，他通过一些示例图展示了alpha的影响。alpha越小，分布越稀疏。此外，他介绍了一些推理方法。

— 卡斯滕
source

7

这不应该是公认的答案

— samsamara 2015年

我猜你是对的。我完全忘记了我写的这个。

— 卡斯滕

哦！没想到看到作者的评论！hehe :)

— samsamara'3

48

答案取决于您是否假设对称或非对称狄利克雷分布（或更严格地说，基本度量是否均匀）。除非另有说明，否则LDA的大多数实现都假定分布是对称的。

对于对称分布，较高的alpha值意味着每个文档可能包含大多数主题的混合，而不是专门包含任何单个主题。较低的alpha值对文档的约束较少，这意味着文档更有可能包含仅几个主题，甚至仅包含一个主题。同样，高beta值意味着每个主题很可能包含大多数单词的混合词，而不是特定的任何单词，而低值意味着主题可能仅包含几个单词的混合词。

另一方面，如果分布是不对称的，则较高的alpha值意味着每个文档更有可能具有特定的主题分布（取决于基本度量）。同样，高beta值意味着每个主题更有可能包含由基本度量定义的特定单词组合。

实际上，较高的alpha值将导致文档包含的主题更加相似。较高的beta值将类似地导致主题在所包含的单词方面更加相似。

因此，是的，alpha参数指定了有关文档中主题稀疏性/一致性的先验信念。我不完全确定您所说的“主题互斥”。

更一般而言，这些是LDA模型中使用的狄利克雷分布的浓度参数。为了对它的工作原理有一些直观的了解，本演示文稿包含一些漂亮的插图，并对LDA进行了很好的说明。

由于我无法对您的原始问题发表评论，因此我将在此处添加其他评论：从我所看到的内容来看，alpha和beta参数在某种程度上会混淆一些不同的参数化。底层狄利克雷分布通常使用向量，但是可以将其分解为基本度量和浓度参数，例如。在alpha参数为标量的情况下，通常表示浓度参数，但也可以表示 $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ ，因为在对称狄利克雷分布下它们将相等。如果是向量，则通常引用。我不确定哪种参数化是最常见的，但是在我的答复中，我假设您是将alpha值和beta值用作浓度参数。 $(\alpha_1, \alpha_2, ... ,\alpha_K)$

— AMO
source

2

+1翔实的答案！我想问一问，alpha和beta的高/低值一般是多少？

— samsamara 2015年

Beta应该是每个主题（矩阵）的单词分布，对吗？那么单个值如何转换为矩阵？

— Noamiko '18

我是否可以得出结论，高alpha意味着文档是相似的，而高beta是主题是相似的？

— Lewistrick '18 -10-15