Questions tagged «search»

寻找在大型数据结构,数据库或数据流中找到的特定数据。对于具有明确确定的搜索条件的数据库查询,请使用查询标记。

8
如何正确使用Google for C
尝试使用Google查找有关C编程语言的教程或答案的问题是C的表达力不足以缩小搜索范围。甚至与“ Programming”和/或“ Language”之类的关键字结合使用时,大多数情况下也会产生C ++,C#和Objective-C的结果。 有没有一种方法可以使用Google更有效地搜索特定的C资源?
44 c  google  search 

2
您将如何实施Google搜索?[关闭]
假设在一次采访中被问到“您将如何实施Google搜索?” 您将如何回答这样的问题?可能有一些资源可以解释Google如何实现某些功能(BigTable,MapReduce,PageRank等),但这并不完全适合采访。 您将使用什么总体架构,以及如何在15-30分钟的时间内解释这一点? 我将首先说明如何构建一个可处理约10万个文档的搜索引擎,然后通过分片扩展到约5000万个文档,然后再扩展一次体系结构/技术。 这是20,000英尺的视图。我想要的是细节-您在面试中如何实际回答。您将使用哪种数据结构。您的架构由什么服务/机器组成。典型的查询延迟是多少?故障转移/大脑分裂问题怎么办?等等...

1
在日常情况下应如何应用HTML数据格式?
考虑到Google逐渐将重点放在页面标记数据上,Schema.org中使用的数据格式如何与微格式一起使用?这些(和其他规范)如何相互补充,在不同情况下应优先使用? 编辑: 从关于该主题的既定内容看来,意见似乎在认为Schema.org是厄运,地狱和硫磺的人之间以及在无论采用哪种方式最终都将是好事的人之间存在分歧。 这两篇文章至少都同意,不同的格式可以愉快地共存,而不会引起搜索引擎的不满。但是,在特定情况下如何使用不同选项的问题仍然存在。
19 html  data  search  schema 

6
带中断/返回的Foreach循环与带显式不变和后置条件的while循环
这是检查值是否在数组中的最流行的方法(在我看来): for (int x : array) { if (x == value) return true; } return false; 但是,在我也许是Wirth或Dijkstra读过的一本书中,据说这种风格更好(与内部退出的while循环相比): int i = 0; while (i < array.length && array[i] != value) i++; return i < array.length; 这样,附加的退出条件就成为循环不变式的显式部分,没有隐藏的条件,并且在循环内退出,一切都变得更加明显,并且结构化编程的方式更加明显。我通常优选后者的图案尽可能和所使用的for从-loop只迭代a到b。 但是我不能说第一个版本不太清楚。至少对于初学者来说,它甚至更清晰,更容易理解。所以我仍然在问自己一个问题哪个更好? 也许有人可以对其中一种方法给出很好的理由? 更新:这不是多个函数返回点,lambda或本身在数组中查找元素的问题。这是关于如何编写具有比单个不等式更复杂的不变式的循环。 更新:好的,我看到回答和评论的人的观点:我在这里混入了foreach循环,它本身已经比while循环更加清晰易读。我不应该那样做。但这也是一个有趣的问题,因此我们将其保留为:foreach循环和内部一个额外条件,或者while循环具有一个显式循环不变性和after后置条件。看来带有条件和退出/中断的foreach循环是成功的。我将创建一个没有foreach循环的附加问题(用于链接列表)。

1
机器学习如何纳入搜索引擎设计中?
我目前正在建立一个基于Apache Lucene的小型内部搜索引擎。它的目的很简单-根据一些关键字,它将建议一些在公司内部撰写的文章。我使用相当标准的TF-IDF评分作为基本指标,并在此基础上建立了自己的评分机制。所有这些似乎都工作得很好,除了一些极端情况下,排名似乎一团糟。 因此,我打算做的是在搜索结果页面上添加一个小的“相关/不相关”链接,以便用户可以根据对结果是否应该首先包含在内的感知,单击其中的一个。 我的点子 将这些相关/不相关视为标签并创建训练数据。 使用此数据来训练分类器(例如SVM) 将此模型整合到搜索引擎中,即,每个新结果都将通过分类器,并为其分配是否相关的标签。 对我来说,这种方法似乎很直观,但是不确定它是否会在实践中起作用。我有两个具体问题: 我应该提取什么所有功能? 有没有更好的方法将机器学习组件集成到搜索引擎中?我的最终目标是基于业务逻辑和用户反馈来“学习”排名功能。

6
对于程序员来说,有效学习Google的重要性?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 4年前关闭。 这不是关于使用Google对程序员的好坏的辩论。 请不要在您的答案中这样做。 如今,大多数人(绝大多数使用互联网的人)都在使用Google。我要说的是20个更有效的 Google搜索提示。 问题:您认为这对程序员有多重要? 问题:有经验的搜索(有关此问题的更多知识)与有效率的搜索(即有经验的人进行的搜索与可以更好地进行搜索的人的搜索)相比如何?在产量还是质量上。 问题:您认为这应该在编程学校,实习生或实习生级别上教授吗? 请不要讨论发展对Google的依赖以解决问题。1)主题不是重点2)如果他们不能解决问题,大多数时候他们将不会被雇用。 问题:这些天是否已经在好的编程学校教授过? 注意: 诚然,这篇文章并不新鲜。 该网站上的某些问题是由程序员发布的简单Google搜索回答的,他们本可以进行更好的搜索。不管期望答案有个人风格,大多数都是对直接或不成功搜索的真正答案。 对于优秀的程序员来说,这可能是常识。但是恕我直言,事实并非如此。 两者之间有区别 谷歌搜索 高效搜索


4
数据库模糊搜索概念
我对此进行了思考,并且一直在尝试提出有关如何模糊搜索数据库的解决方案,例如,如果用户键入了拼写错误。这个逻辑背后有什么明显的问题吗?它会工作吗,并且以前做过吗? 我们希望搜索的表: **tblArticles** Body - Soundex_Body - CharacterCoded_Body 因此,我们存储原始文本正文以进行物理显示。其他两列用于通过以下方式预先计算的搜索: 声音 正文被分解成单词,然后翻译成其soundex版本。IE,生成的正文可能类似于: H252 B54 C23 E33... etc 因此,有人可能会输入“恐龙”,而本文的正文为“恐龙”,则两者均等于B26。然后,我们对搜索词的soundex值运行一个LIKE。 字符编码 给定一个将char映射到质数的字符映射,即IE: h = 2 e = 3 l = 5 o = 7 p = 11 c = 13 help = 2*3*5*11 = 330 hello = 2*3*5*5*7 = 1050 hell = 2*3*5*5 …

1
跨多个微服务跨数据搜索
我在微服务和旧数据库之间分配了某个域的数据。我的搜索跨越了旧版和微服务数据库上的字段。以前(在拆分微服务之前),它是通过1个sql查询完成的。现在,我需要一个REST调用和一个对旧数据库的查询来提供此搜索功能。我们在这里谈论的是几百万行。我怎样才能做到最好?由于数据量大,REST调用通常也会返回分页结果。激发SQL调用并将结果与​​REST响应合并和合并的幼稚方法太慢且不切实际。

8
为什么在MS网站上这么难找到东西?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 4年前关闭。 我一直在想这个问题,我很乐意对此做一个解释。是我还是您也有同样的感觉,很难在MS网站上找到任何东西。例如,每次我需要下载.NET Framework时,都必须向Google下载。您永远不知道可以下载什么,没有下载类别。您只是留在搜索字段中。您永远不会知道您是否下载了该文件的最新版本。可悲的是,您必须依靠其竞争对手Google在其网站上找到任何东西。我知道他们是一家大公司。 但是,采用一种有组织的方式发布信息真的难吗?

1
匹配数百万条记录的部分名称
我们已经开发了一个基于Web的名称匹配应用程序。它通过将名称分成多个部分进行操作,每个部分的Soundex值存储在数据库中。在莱文斯坦距离度量用于应用声音的百分比匹配以及拼写对一个给定的名称。 在运行时,我们将所有记录加载到内存中,并将Levenshtein距离应用于所有Soundex值以及所有名称的所有部分的拼写。 最初这样做很好,因为最多有2万个名称,但是现在我们的一位客户拥有3000万个名称。对于每个请求将巨大的列表加载到内存中并应用这种类型的匹配是一种可悲的方法,它占用了大量内存和执行时间。 我们正在寻找有关在不久的将来搜索声音和拼写百分比匹配的3000万条或更多记录的数据库的建议。 核心功能 最终用户输入要匹配的名称和最小百分比。我们应该在数据库中显示所有名称,其中名称的任何部分与给定名称的任何部分匹配到给定百分比。全名不需要匹配,只要匹配百分比最高就可以成功。例如。 Given Name: Helen Hunt Name in DB: Holly Hunter 两个名称的两个部分都不完全匹配,但在某种程度上不匹配,让我们假设80%,因此,如果用户输入80%,则DB中的名称必须显示为匹配名称。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.