Questions tagged «scraping»

2
抓取500万个网页的最有效的方法(时间,成本)?
我有一个网页列表,我需要对其进行抓取,解析然后将结果数据存储在数据库中。总数约为500万。 我目前对实现此目标的最佳方法的假设是部署约100个EC2实例,为每个实例提供50,000页以供抓取,然后继续运行,然后在该过程完成后将数据库合并在一起。假设运行大约需要一天(加载,解析和保存每个页面需要600毫秒)。 有没有人有在有限的时间内进行如此大量的页面抓取的经验?我之前(150万)做了大量工作,但是那是在一台机器上完成的,只花了一周多的时间就完成了。 我遇到的瓶颈是页面的下载,解析所需的时间不超过2毫秒,因此我正在寻找可以简化页面下载过程的内容。

7
如何避免被刮?
我们有一个可搜索的Database(DB),我们将结果限制为每页15个,只有100个结果,但是仍然有人试图刮擦该网站。 我们禁止访问速度足够快的网站。我想知道我们还有什么可以做的。Flash渲染结果也许?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.