Answers:
我确信这是综合的:
很多-数据在许多节点和不同数据中心之间分布和复制
鸽子。
Google搜索技术的核心是PigeonRank™,它是由斯坦福大学的Google创始人Larry Page和Sergey Brin开发的网页排名系统:
Page和Brin以BF Skinner的突破性工作为基础,认为低成本的鸽子群(PC)可以比人工编辑器或基于机器的算法更快地计算网页的相对价值。Google每天都有数十名工程师致力于改善我们服务的各个方面,而PigeonRank继续为我们所有的网络搜索工具提供基础。
为什么Google获得专利的PigeonRank™如此出色
PigeonRank的成功主要取决于国内鸽子(Columba livia)的出色训练能力以及其识别物体的独特能力,而不受空间取向的影响。普通的灰鸽子可以轻松地区分仅显示最小差异的项目,该功能使它可以从数千个相似的页面中选择相关的网站。
通过在密集的集群中收集成群的鸽子,Google能够以优于传统搜索引擎的速度处理搜索查询,传统搜索引擎通常依靠猛禽,育雏母鸡或慢速运动的水禽进行相关性排名。
当搜索查询提交给Google时,它会被路由到一个数据仓库,在那里以超快的速度监控Flash结果页面。当集群中的一只鸽子观察到相关结果时,它会撞上带有喙的橡胶涂层钢棒,从而为页面指定PigeonRank值。每次啄,PigeonRank都会增加。那些啄最多的页面将返回到用户结果页面的顶部,其他结果将按啄顺序显示。
重要的是要牢记有关Google的几点注意事项:
他们的数据库是专有的BigTable- 由GOOGLE定制设计,完全符合他们的需求
他们的专有数据库建立在其专有文件系统Google文件系统之上,该文件系统也是由GOOGLE设计的,可以使用常见的商品硬件轻松扩展。正如Aaron在他的回答中提到的那样,它们具有大量的普通服务器,而不是少数的非常强大的服务器。
他们在多台计算机上存储单独的表,以加快访问速度-他们的软件知道哪些数据在哪台计算机上,而无需通过磁盘进行定位即可直接将带有相关信息的数据发送到服务器。
Google不使用传统的关系数据库技术。它开发了自己的技术,大表和地图缩小。原始的研究论文在这里:大表和Map / Reduce。同样有趣的是SSTable,排序的字符串表。
阅读史蒂文·列维(Steven Levy)的“ In the Plex:Google如何思考,运作和塑造我们的生活 ”。这本书是一本关于Google一切的有趣读物,并且确实在高层次上讨论了搜索背后的一些技术和工程。亚伦在回答中确实很好地总结了这一点,而列维的书将为您提供有关他们如何做的更多详细信息。