流行的主题模型(如LDA)通常将倾向于共同出现在同一主题(集群)中的单词聚类。
这种主题模型与其他基于共现的简单聚类方法(例如PMI)之间的主要区别是什么?(PMI代表逐点相互信息,用于识别与给定单词共存的单词。)
流行的主题模型(如LDA)通常将倾向于共同出现在同一主题(集群)中的单词聚类。
这种主题模型与其他基于共现的简单聚类方法(例如PMI)之间的主要区别是什么?(PMI代表逐点相互信息,用于识别与给定单词共存的单词。)
Answers:
最近,越来越多的文献讨论如何从书面文本中提取信息。因此,我将仅描述四个里程碑/流行模型及其优势/劣势,从而突出(一些)主要差异(或至少我认为是主要/最重要的差异)。
您提到了“最简单”的方法,该方法是通过将文档与术语的预定义查询进行匹配来对文档进行聚类(如在PMI中)。但是,由于单项的多义(多种含义)和同义词(多种含义相似的单词),这些词汇匹配方法可能不准确。
作为一种补救方法,潜在语义索引(LSI)试图通过将术语和文档通过奇异值分解映射到潜在语义空间中来克服这一问题。LSI结果比单独的术语更能说明含义。但是,LSI的缺点之一是缺乏可靠的概率基础。
概率LSI(pLSI)的发明部分解决了这一问题。在pLSI模型中,文档中的每个单词均来自通过多项式随机变量指定的混合模型(如@sviatoslav hong所述,该模型还允许更高阶的同时出现)。这是在概率文本建模方面迈出的重要一步,但在文档级别没有提供概率结构的意义上,这是不完整的。
潜在Dirichlet分配(LDA)缓解了这一问题,并且是第一个完全概率的文本聚类模型。Blei等。(2003年)表明,在一致的Dirichlet先验条件下,pLSI是最大的后验估计LDA模型。
请注意,上述模型(LSI,pLSI,LDA)的共同点在于它们基于“词袋”假设-即文档中的单词是可交换的,即文档中单词的顺序可以被忽视。与其他方法相比,这种可交换性假设为LDA提供了进一步的证明:假设不仅文档中的单词可以互换,而且文档(即语料库中文档的顺序)可以忽略,De Finetti定理指出任何可交换的随机变量集都具有混合分布的表示形式。因此,如果假定文档和文档中单词的可交换性,则需要两者的混合模型。正是这正是LDA通常可以实现的,但是PMI或LSI不能达到(甚至pLSI不如LDA那样美观)。