简短文档的主题模型


14

这个问题的启发,我想知道是否针对大量极短文本的主题模型进行了任何工作。我的直觉是,Twitter应该是此类模型的自然灵感。但是,通过一些有限的实验,看起来标准主题模型(LDA等)在此类数据上的表现非常差。

有没有人知道在这方面所做的任何工作?本文讨论了将LDA应用于Twitter,但是我真的很感兴趣是否还有其他算法在短文档环境中表现更好。


2
Twitter是用于主题建模的特别困难的数据集,这不仅是因为“文档”的尺寸很小,还因为文本的类型。人们倾向于使用各种短信简写,这使得识别共现更加困难。
尼克

请参阅优质论文列表以及有关推文主题建模的相应源代码,网址
NQD

Answers:


7

这是一个较晚的答案,但对于其他人寻找有关此问题的相关研究和工具可能有用的:

  1. 来自哥伦比亚的Guo Weiwei实现了用于短文本主题建模的代码。他在论文“潜在空间中的句型建模”(http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf)中描述了该实现,并且代码可在此处找到: http:// www .cs.columbia.edu /〜weiwei / code.html

  2. 尽管这不是主题建模,但是如果您有涉及短文本的分类任务,则可以使用LibShortText。从他们的网站描述

“ LibShortText是用于短文本分类和分析的开源工具。它可以处理例如标题,问题,句子和短消息的分类...”

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

虽然我对他的工作不是很熟悉,但是我知道Jacob Eisenstein已经完成了Twitter数据的文本分析和图形模型方面的工作。特别是,本文描述了主题建模在Twitter数据和微博中的应用。

编辑:实际上在多读了几篇论文之后,他们说:

但是,Twitter上的平均消息只有16个单词标记,对于传统的主题建模来说太稀疏了。相反,我们将来自给定用户的所有消息收集到一个文档中。

因此,也许这篇论文可能没有多大帮助,但也许其他爱森斯坦的出版物可能会引导您朝着正确的方向前进。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.