Questions tagged «large-data-volumes»

10
设计网络爬虫
我遇到了一个采访问题“如果您正在设计Web搜寻器,如何避免陷入无限循环?”,而我正试图回答这个问题。 这一切是如何从头开始的。假设Google从一些中心页面开始说,其中有数百个(首先如何找到这些中心页面是一个不同的子问题)。当Google跟踪页面中的链接等时,它是否会继续创建哈希表以确保它不遵循先前访问的页面。 如果当我们拥有URL缩短器等功能时,如果同一页面上有2个名称(URL)怎么办? 我以Google为例。尽管Google不会泄漏其网络爬虫算法和页面排名等的工作原理,但是有什么猜测吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.