Questions tagged «full-text-search»

全文搜索涉及搜索文档,通常涉及非结构化文本,而不是在结构化数据库中搜索文本字段。

8
全文搜索引擎的比较-Lucene,Sphinx,Postgresql,MySQL?
我正在建立Django网站,并且正在寻找搜索引擎。 一些候选人: Lucene / Lucene与指南针/ Solr 狮身人面像 Postgresql内置全文本搜索 MySQl内置全文本搜索 选择标准: 结果相关性和排名 搜索和索引速度 易于使用,易于与Django集成 资源需求-网站将托管在VPS上,因此理想情况下,搜索引擎不需要大量的RAM和CPU 可扩展性 其他功能,例如“您的意思是?”,相关搜索等 任何对以上搜索引擎或其他不在列表中的引擎有经验的人-我很想听听您的意见。 编辑:至于索引需求,随着用户不断向站点输入数据,这些数据将需要连续索引。它不一定是实时的,但是理想情况下新数据将以不超过15-30分钟的延迟显示在索引中

10
Elasticsearch中的分片和副本
我试图了解Elasticsearch中的分片和副本,但是我没有设法理解它。如果我下载Elasticsearch并运行脚本,那么据我所知,我已经启动了具有单个节点的集群。现在,该节点(我的PC)具有5个分片(?)和一些副本(?)。 它们是什么,我有5个重复的索引吗?如果可以,为什么?我可能需要一些解释。


4
ElasticSearch入门指南
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意测验或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 没有关于ElasticSearch的书(据我所知),并且http://www.elasticsearch.org/guide/似乎只包含参考。 有什么好的初学者指南或教程,可能是通过示例,特别是在不同的映射和索引策略方面,值得推荐吗?

5
选择独立的全文本搜索服务器:Sphinx还是SOLR?[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意测验或进一步的讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 我正在寻找具有以下属性的独立全文搜索服务器: 必须作为独立服务器运行,可以处理来自多个客户端的搜索请求 必须能够通过对SQL查询的结果建立索引来进行“批量索引”:说“ SELECT id,text_to_index FROM document;” 必须是免费软件,并且必须在以MySQL作为数据库的Linux上运行 必须快速(排除MySQL的内部全文搜索) 我发现具有这些属性的替代方法是: Solr(基于Lucene) ElasticSearch(也基于Lucene) 狮身人面像 我的问题: 他们如何比较? 我有没有其他选择吗? 我知道,每个用例是不同的,但是否有某些情况下,我肯定不希望使用某个软件包?

6
无需索引即可在文件内搜索字符串的工具
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 5年前关闭。 改善这个问题 我必须在一个令人难以置信的旧应用程序中更改一些连接字符串,而使它的程序员认为用整个地方的连接字符串粘贴整个应用程序是一个好主意。 Visual Studio的“当前项目”搜索速度非常慢,而且我不相信Windows搜索。 那么,那里最好的免费的,非索引文本搜索工具是什么?它所要做的就是返回一个列表,其中包含在文件夹及其子文件夹中包含所需字符串的文件。 我正在运行Windows 2003 Server。

16
搜索颠覆历史(全文)
有没有一种方法可以对包括所有历史在内的Subversion存储库执行全文搜索? 例如,我写了一个我在某处使用过的功能,但后来并不需要它,所以我对文件进行了编码,但是现在我需要再次查找它以将其用于其他用途。svn日志中可能会显示诸如“删除未使用的东西”之类的内容,并且有大量此类签入操作。 编辑2016-04-15:请注意,术语“全文本搜索”在这里要求的是搜索提交历史记录的实际差异,而不是文件名和/或提交消息。我指出这一点是因为作者的上面措辞不能很好地反映这一点-因为在他的示例中,他可能还只是在寻找文件名和/或提交消息。因此,很多svn log答案和评论。



9
使用InnoDB进行全文搜索
我正在开发一个大容量的Web应用程序,其中的一部分是讨论帖子的MySQL数据库,该数据库需要平稳地增长到2000万+行。 我本来打算对表使用MyISAM(用于内置的全文本搜索功能),但是由于单个写入操作而使整个表被锁定的想法使我陷入困境。行级锁具有更大的意义(更不用说InnoDB在处理大型表时的其他速度优势)。因此,基于这个原因,我决心使用InnoDB。 问题是... InnoDB没有内置的全文本搜索功能。 我应该使用第三方搜索系统吗?像Lucene(c ++) / Sphinx吗?你们中的任何数据库忍者有任何建议/指导吗?LinkedIn的zoie(基于Lucene)目前看来是最好的选择...是围绕实时功能构建的(这对我的应用程序而言非常关键。)我有点犹豫,但还没有深入的了解... (仅供参考:将在具有高内存绑定的EC2上使用PHP服务前端)

3
什么是多面搜索?
在全文搜索的上下文中,分面搜索到底是什么? 我什至从Wikipedia上了解到它,但是我无法完全理解它的用途/益处。希望社区能够回答/扩展并举例说明。 注意:我们正在评估/研究不同的开放式搜索全文本搜索引擎的过程中,大多数情况下,我看到多面搜索被列为功能之一。因此,我正在尝试评估这是否对我们的应用程序需求有所帮助。

2
Android中的全文本搜索示例
我很难理解如何在Android上使用全文搜索(FTS)。我已经阅读了有关FTS3和FTS4扩展的SQLite文档。而且我知道可以在Android上进行。但是,我很难找到我能理解的任何例子。 基本数据库模型 一个SQLite数据库表(名为example_table)有4列。但是,text_column对于全文搜索,只有一列(名为)需要建立索引。每行text_column包含的文本长度在0到1000个单词之间。行的总数大于10,000。 您将如何设置表和/或FTS虚拟表? 您将如何执行FTS查询text_column? 补充说明: 因为只需要对一列进行索引,example_table所以对于非FTS查询,仅使用FTS表(和dropping )效率低下。 对于如此大的表,text_column将不希望在FTS表中存储重复的条目。这篇文章建议使用外部内容表。 外部内容表使用FTS4,但在Android API 11之前不支持FTS4 。答案可以假定API> = 11,但是对支持较低版本的选项进行注释将很有帮助。 更改原始表中的数据不会自动更新FTS表(反之亦然)。对于此基本示例,在您的答案中包括触发器不是必需的,但是仍然会有所帮助。

4
如何在Visual Studio中实际搜索所有文件
我正在使用Visual Studio。举例来说,我在类Utils中有一个名为FooBar()的静态公共方法。还要说我在许多.aspx文件中都使用了此方法。假设我将FooBar()的方法签名更改为FooBar(string),随后我想找到Utils.FooBar的所有实例,以便我可以对其进行更新。 现在,假设我转到“解决方案资源管理器”搜索框,选择“在文件内容中搜索”,然后键入“实用程序”。尽管我无处不在都调用Utils。*方法,但显示的唯一内容是Utils.cs文件。如果我继续输入“ Utils.FooBar”,则不会显示任何内容。 现在,我启动了一个cygwin窗口并使用grep,因为普通的Windows搜索也非常无用。但是似乎必须在Visual Studio中的所有文件中找到一种实际的搜索方法。我想念什么吗?

4
MySQL match()对()-按相关性和按列排序?
好的,所以我试图在多列中进行全文搜索,就像这样简单: SELECT * FROM pages WHERE MATCH(head, body) AGAINST('some words' IN BOOLEAN MODE) 现在,我想按相关性排序(找到了多少个单词?),我已经可以使用以下方式进行处理: SELECT * , MATCH (head, body) AGAINST ('some words' IN BOOLEAN MODE) AS relevance FROM pages WHERE MATCH (head, body) AGAINST ('some words' IN BOOLEAN MODE) ORDER BY relevance 现在这是我迷路的部分,我想优先考虑此head栏中的相关性。 我想我可以创建两个相关性列,一个用于head,一个用于body,但是到那时,我将在表中进行三遍相同的搜索,而对于我要创建的函数,性能非常重要,因为查询将被联接并与其他表匹配。 因此,我的主要问题是,有没有一种更快的方法来搜索相关性并确定某些列的优先级?(作为奖励,甚至可能使相关性计数单词在列中出现的次数?) 任何建议或意见将是巨大的。 注意:我将在LAMP服务器上运行它。(WAMP在本地测试中)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.