大型搜索引擎使用哪些数据库技术？[关闭]

32

有人知道Google或Yahoo如何针对非常大量的数据执行关键字搜索吗？他们为此采用何种数据库或技术？

它需要几毫秒的时间，但它们索引的页面超过十亿。

database-design full-text-search

— 尔塞吉
source

关于堆栈溢出也有类似的问题：stackoverflow.com/questions/362956/…–

— splattne

21

我确信这是综合的：

认真的硬件
很多-数据在许多节点和不同数据中心之间分布和复制
- （实际上，至少在Google案例中，我相信他们有成千上万个真正的低端服务器）
缓存了许多常见查询的结果，请注意它们是如何在潜在搜索中预先填充您以前从未搜索过的内容的；他们正在预测您可能要搜索的内容，并希望他们已经预先计算了结果并将其缓存在某个地方。在很多情况下，它们都可以-如今，您在Google上提出的搜索请求很少，而您之前从未有人提出过这样的请求。当他们确实得到一个新的搜索词组时，他们可能会使用自由文本搜索之类的方法-我希望在第一次爬网页面时从语义上提取关键字，而不是在搜索它们之后尝试在文档中查找关键字。当然，他们确实必须定期使这些缓存失效，重新计算页面排名，

— 亚伦·伯特兰
source

34

鸽子。

Google搜索技术的核心是PigeonRank™，它是由斯坦福大学的Google创始人Larry Page和Sergey Brin开发的网页排名系统：

在此处输入图片说明

Page和Brin以BF Skinner的突破性工作为基础，认为低成本的鸽子群（PC）可以比人工编辑器或基于机器的算法更快地计算网页的相对价值。Google每天都有数十名工程师致力于改善我们服务的各个方面，而PigeonRank继续为我们所有的网络搜索工具提供基础。

为什么Google获得专利的PigeonRank™如此出色

PigeonRank的成功主要取决于国内鸽子（Columba livia）的出色训练能力以及其识别物体的独特能力，而不受空间取向的影响。普通的灰鸽子可以轻松地区分仅显示最小差异的项目，该功能使它可以从数千个相似的页面中选择相关的网站。

通过在密集的集群中收集成群的鸽子，Google能够以优于传统搜索引擎的速度处理搜索查询，传统搜索引擎通常依靠猛禽，育雏母鸡或慢速运动的水禽进行相关性排名。

当搜索查询提交给Google时，它会被路由到一个数据仓库，在那里以超快的速度监控Flash结果页面。当集群中的一只鸽子观察到相关结果时，它会撞上带有喙的橡胶涂层钢棒，从而为页面指定PigeonRank值。每次啄，PigeonRank都会增加。那些啄最多的页面将返回到用户结果页面的顶部，其他结果将按啄顺序显示。

— ypercubeᵀᴹ
source

6

注意：此页面发布于2002

— jimbob博士2012年

19

重要的是要牢记有关Google的几点注意事项：

他们的数据库是专有的BigTable- 由GOOGLE定制设计，完全符合他们的需求
他们的专有数据库建立在其专有文件系统Google文件系统之上，该文件系统也是由GOOGLE设计的，可以使用常见的商品硬件轻松扩展。正如Aaron在他的回答中提到的那样，它们具有大量的普通服务器，而不是少数的非常强大的服务器。

他们在多台计算机上存储单独的表，以加快访问速度-他们的软件知道哪些数据在哪台计算机上，而无需通过磁盘进行定位即可直接将带有相关信息的数据发送到服务器。

— JNK
source

11

Google不使用传统的关系数据库技术。它开发了自己的技术，大表和地图缩小。原始的研究论文在这里：大表和Map / Reduce。同样有趣的是SSTable，排序的字符串表。

hadoop和NoSQL数据库中现在使用了类似的技术。

— 尼姆·坎普斯基
source

9

阅读史蒂文·列维（Steven Levy）的“ In the Plex：Google如何思考，运作和塑造我们的生活 ”。这本书是一本关于Google一切的有趣读物，并且确实在高层次上讨论了搜索背后的一些技术和工程。亚伦在回答中确实很好地总结了这一点，而列维的书将为您提供有关他们如何做的更多详细信息。

— 托德·埃弗里特
source