Answers:
这是一个较晚的答案,但对于其他人寻找有关此问题的相关研究和工具可能有用的:
来自哥伦比亚的Guo Weiwei实现了用于短文本主题建模的代码。他在论文“潜在空间中的句型建模”(http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf)中描述了该实现,并且代码可在此处找到: http:// www .cs.columbia.edu /〜weiwei / code.html
尽管这不是主题建模,但是如果您有涉及短文本的分类任务,则可以使用LibShortText。从他们的网站描述
“ LibShortText是用于短文本分类和分析的开源工具。它可以处理例如标题,问题,句子和短消息的分类...”
虽然我对他的工作不是很熟悉,但是我知道Jacob Eisenstein已经完成了Twitter数据的文本分析和图形模型方面的工作。特别是,本文描述了主题建模在Twitter数据和微博中的应用。
编辑:实际上在多读了几篇论文之后,他们说:
但是,Twitter上的平均消息只有16个单词标记,对于传统的主题建模来说太稀疏了。相反,我们将来自给定用户的所有消息收集到一个文档中。
因此,也许这篇论文可能没有多大帮助,但也许其他爱森斯坦的出版物可能会引导您朝着正确的方向前进。
最近一篇名为“ 短文本的双向术语模型 ”(WWW13)的论文在该主题上取得了一些进展,这是其代码