Questions tagged «information-retrieval»

11
计算趋势主题或标签的最佳方法是什么?
许多网站都提供一些统计信息,例如“过去24小时内最热门的主题”。例如,Topix.com在其“新闻趋势”部分显示了这一点。在这里,您可以看到提及次数增长最快的主题。 我也想为主题计算这样的“嗡嗡声”。我该怎么办?该算法应权衡始终不那么热门的主题。通常(几乎)没有人提及的主题应该是最热门的主题。 Google提供“热门趋势”,topix.com显示“热门主题”,fav.or.it显示“关键字趋势”-所有这些服务都有一个共同点:它们仅向您显示当前异常热门的即将到来的趋势。 诸如“小甜甜布兰妮”,“天气”或“巴黎希尔顿”之类的词不会出现在这些列表中,因为它们总是很热而且很频繁。本文称为“小甜甜布兰妮问题”。 我的问题:如何编码算法或使用现有算法来解决此问题?列出最近24小时内搜索过的关键字,该算法应为您显示10个(例如)最热门的关键字。 我知道,在以上文章中,提到了某种算法。我试图用PHP编写代码,但我认为它不会起作用。它只是找到了大多数,不是吗? 希望您能对我有所帮助(编码示例会很棒)。

6
Python:tf-idf-cosine:查找文档相似性
我正在关注第1 部分和第2 部分中可用的教程。不幸的是,作者没有时间进行最后一节,涉及使用余弦相似度实际找到两个文档之间的距离。我在stackoverflow的以下链接的帮助下关注了本文中的示例,其中包括上述链接中提到的代码(只是为了使生活更轻松) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords = stopwords.words('english') vectorizer …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.