统计和大数据 topic-models

4

用于执行主题建模/ LDA的R包：只是“ topicmodels”和“ lda” [关闭]

在我看来，只有两个R程序包能够执行Latent Dirichlet分配：一个是lda，由乔纳森·张（Jonathan Chang）撰写；另一个topicmodels由BettinaGrün和Kurt Hornik撰写。这两个软件包在性能，实现细节和可扩展性方面有什么区别？

29 r bayesian text-mining topic-models latent-dirichlet-alloc

3

主题模型和单词共现方法

流行的主题模型（如LDA）通常将倾向于共同出现在同一主题（集群）中的单词聚类。这种主题模型与其他基于共现的简单聚类方法（例如PMI）之间的主要区别是什么？（PMI代表逐点相互信息，用于识别与给定单词共存的单词。）

26 machine-learning text-mining natural-language topic-models

2

主题模型中的主题稳定性

我正在一个项目中，我要提取有关一系列开放式论文内容的信息。在这个特定的项目中，作为大型实验的一部分，有148人撰写了有关假设的学生组织的文章。尽管在我的领域（社会心理学），分析这些数据的典型方法是手工编写论文，但我想定量地进行此操作，因为手工编码既费工又过于主观味道。在对定量分析免费响应数据的方法进行调查期间，我偶然发现了一种称为主题建模（或潜在Dirichlet分配或LDA）的方法。主题建模采用数据的单词袋表示（术语文档矩阵），并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。不幸的是，当我将主题建模应用于数据时，我发现了两个问题：主题建模发现的主题有时很难解释当我使用其他随机种子重新运行主题模型时，主题似乎发生了巨大变化我特别关心第2期。因此，我有两个相关的问题：在LDA程序中，我可以做些什么来优化我的模型拟合程序的可解释性和稳定性？就我个人而言，我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是，我当然不希望我的结果成为随机种子的假象！与上述问题相关，LDA是否需要多少数据的标准？我见过的大多数使用这种方法的论文都分析了大型语料库（例如，过去20年中所有科学论文的档案），但是，由于我使用的是实验数据，因此我的文档语料库要小得多。我在这里张贴了论文数据，以供任何想弄脏他或她的手的人使用，并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

LDA超参数的自然解释

有人可以解释LDA超参数的自然解释是什么吗？ALPHA和BETA是分别用于（按文档）主题和（按主题）单词分布的Dirichlet分布的参数。但是，有人可以解释一下选择这些超参数中的较大值与较小值的含义吗？这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见？这个问题与潜在的Dirichlet分配有关，但是下面紧随其后的BGReene的评论涉及线性判别分析，该分析也令人困惑，也简称为LDA。

21 interpretation prior topic-models hyperparameter

2

如何计算潜在的Dirichlet分配的坚持的困惑？

我对进行潜在狄利克雷分配（LDA）时如何计算保留样本的困惑度感到困惑。有关该主题的论文轻而易举，使我觉得我缺少明显的东西... 困惑被视为LDA性能的良好衡量标准。这样做的想法是，您保留一个保留样本，在其余数据上训练LDA，然后计算保留的复杂性。困惑可以由以下公式给出： per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} （摘自Horster等人的大型图像数据库上的图像检索）。这里 MMM是文档的数量（测试样品中，据推测），wdwd\mathbb{w}_d表示在文件的话ddd，NdNdN_d在文档的单词数ddd。我不清楚如何合理地计算p(wd)p(wd)p(\mathbb{w}_d)，因为我们没有所保留文档的主题组合。理想情况下，我们将对所有可能的主题混合在Dirichlet之前进行积分，并使用我们学到的主题多项式。但是，计算此积分似乎并不容易。或者，我们可以尝试为每个坚持的文档（考虑到我们所学的主题）学习最佳的主题组合，并以此来计算困惑度。这是可行的，但是它并不像Horter等人和Blei等人的论文所暗示的那么琐碎，而且我还不清楚我的结果是否等同于上述理想情况。

18 text-mining topic-models

1

使用潜在Dirichlet分配的主题预测

我在一组文档上使用了LDA，并发现了一些主题。我的代码的输出是两个包含概率的矩阵。一个doc-topic概率，另一个word-topic概率。但是我实际上不知道如何使用这些结果来预测新文档的主题。我正在使用Gibbs采样。有人知道吗？谢谢

17 text-mining topic-models

3

简短文档的主题模型

受这个问题的启发，我想知道是否针对大量极短文本的主题模型进行了任何工作。我的直觉是，Twitter应该是此类模型的自然灵感。但是，通过一些有限的实验，看起来标准主题模型（LDA等）在此类数据上的表现非常差。有没有人知道在这方面所做的任何工作？本文讨论了将LDA应用于Twitter，但是我真的很感兴趣是否还有其他算法在短文档环境中表现更好。

14 references text-mining topic-models natural-language

Questions tagged «topic-models»