主题模型和单词共现方法


26

流行的主题模型(如LDA)通常将倾向于共同出现在同一主题(集群)中的单词聚类。

这种主题模型与其他基于共现的简单聚类方法(例如PMI)之间的主要区别是什么?(PMI代表逐点相互信息,用于识别与给定单词共存的单词。)

Answers:


32

最近,越来越多的文献讨论如何从书面文本中提取信息。因此,我将仅描述四个里程碑/流行模型及其优势/劣势,从而突出(一些)主要差异(或至少我认为是主要/最重要的差异)。

您提到了“最简单”的方法,该方法是通过将文档与术语的预定义查询进行匹配来对文档进行聚类(如在PMI中)。但是,由于单项的多义(多种含义)和同义词(多种含义相似的单词),这些词汇匹配方法可能不准确。

作为一种补救方法,潜在语义索引(LSI)试图通过将术语和文档通过奇异值分解映射到潜在语义空间中来克服这一问题。LSI结果比单独的术语更能说明含义。但是,LSI的缺点之一是缺乏可靠的概率基础。

概率LSI(pLSI)的发明部分解决了这一问题。在pLSI模型中,文档中的每个单词均来自通过多项式随机变量指定的混合模型(如@sviatoslav hong所述,该模型还允许更高阶的同时出现)。这是在概率文本建模方面迈出的重要一步,但在文档级别没有提供概率结构的意义上,这是不完整的。

潜在Dirichlet分配(LDA)缓解了这一问题,并且是第一个完全概率的文本聚类模型。Blei等。(2003年)表明,在一致的Dirichlet先验条件下,pLSI是最大的后验估计LDA模型。

请注意,上述模型(LSI,pLSI,LDA)的共同点在于它们基于“词袋”假设-即文档中的单词是可交换的,即文档中单词的顺序可以被忽视。与其他方法相比,这种可交换性假设为LDA提供了进一步的证明:假设不仅文档中的单词可以互换,而且文档(即语料库中文档的顺序)可以忽略,De Finetti定理指出任何可交换的随机变量集都具有混合分布的表示形式。因此,如果假定文档和文档中单词的可交换性,则需要两者的混合模型。正是这正是LDA通常可以实现的,但是PMI或LSI不能达到(甚至pLSI不如LDA那样美观)。


2
1/2谢谢!非常清楚。让我检查一下我是否正确:在LSI中,文档是由单词(没有主题的概念)混合而成的,单词和文档使用SVD映射到较低维度的语义空间。由于具有相似语义含义的单词被映射得更近,因此它可以处理同义词,但存在地域性问题。pLSI通过引入主题概念解决了域名问题。在pLSI中,单词是从单词(主题)的多项式分布中抽取的,尽管未明确建模,但同一单词可以属于多个主题,而一个文档具有多个主题。
kanzen_master 2012年

2
我认为一般来说您做对了。进行一些更小的更正:LSI被认为可以与多义和综合体一起使用。pLSI基本上是一种通过潜在类分析/混合模型和概率工具(而不只是线性代数)实现LSI所追求的目标的表述。通过指定每个文档的主题分布,LDA与pLSI相比是一种完全生成的模型。
Momo 2012年

1
关于您对过度拟合和预测的观点,我对于足够的知识还不够了解。但是,尽管有其全部价值,但我不明白为什么LDA不应该比pLSI容易过拟合(因为LDA基本上只是在pLSI模型之前添加了)。两者都没有针对过度拟合等的内置校正。使用像LDA这样的完全生成的模型,对新文档进行“预测”确实可能更容易或可行,请参阅stats.stackexchange.com/questions/9315/…但我会将LDA视为一种无监督的描述性模型。
Momo

1
再次感谢!最后两个问题:(1)关于多义性,在本pdf中,第3页末尾,霍夫曼指出,与LSI相比,PLSI的差异之一是多义性,因为同一单词可以属于不同的单词分布(主题);这就是为什么我认为LSI不适用于多义性。(2)关于过度拟合,该博客指出参数的线性增加表明该模型易于过度拟合。你怎么看 ?
kanzen_master 2012年

2
没问题。您已经对这些事情了解很多,所以我也学习一些东西。ad(1)好吧,通常,这取决于:LSI可以处理多义性,这是因为PCA中的术语是线性组合的。使用同义词可以更好地做到这一点,但是对于多义性来说,在某种程度上也是如此。基本上,相似的多义词是具有相似含义的词的添加成分。但是,它的效果远不如pLSI,因为单词的每次出现都表示为空间中的单个点。因此,单词表示形式是语料库中所有单词不同含义的平均值。
Momo 2012年

5

LDA可以捕获词语共存的更高阶(由于假设每个主题都是词语的多项式分布),这仅通过计算词语之间的PMI是不可能的。


4
谢谢!“高同时发生”的定义是什么?
kanzen_master 2012年

5

我可能迟到了3年,但我想以“高同时发生率”为例,跟进您的问题。

基本上,如果术语t1与术语t2同时出现的术语t2同时出现,则术语t1是与术语t3的二阶同时出现。您可以根据需要提高顺序,但最后可以控制两个单词的相似程度。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.