Questions tagged «lda»

4
潜在Dirichlet分配与分层Dirichlet过程
潜在Dirichlet分配(LDA)和Hierarchical Dirichlet Process(HDP)都是主题建模过程。主要区别在于LDA要求指定主题数,而HDP则不需要。为什么会这样?两种主题建模方法的优缺点是什么?
49 nlp  topic-model  lda 


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
使用从潜在Dirichlet分配派生的主题对文档进行聚类
我想将Latent Dirichlet Allocation用于项目,并且将gensim库与Python一起使用。找到主题之后,我想使用诸如k-means之类的算法对文档进行聚类(理想情况下,我想对重叠的聚类使用一个好的聚类,因此欢迎提出任何建议)。我设法得到了主题,但它们的形式为: 0.041 *部长+ 0.041 *按键+ 0.041 *瞬间+ 0.041 *有争议的+ 0.041 *总理 为了应用聚类算法并在错误的情况下纠正我,我相信我应该找到一种使用tfidf或word2vec将每个单词表示为数字的方法。 您是否对如何从列表中“剥离”文本信息有什么想法,然后再放回它们以进行适当的乘法? 例如,如果我看到“部长”一词的tfidf权重为0.042,以此类推,那么对于同一主题内的任何其他单词,我应该这样计算: 0.041 * 0.42 + ... + 0.041 * tfidf(Prime)并获得稍后将用于聚类结果的结果。 感谢您的时间。

5
主题模型和LDA教程
我想知道你们是否有关于主题模型和LDA的一些很好的教程(快速而直接),直观地讲授如何设置一些参数,它们的含义,并在可能的情况下提供一些真实的例子。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.