2
抓取500万个网页的最有效的方法(时间,成本)?
我有一个网页列表,我需要对其进行抓取,解析然后将结果数据存储在数据库中。总数约为500万。 我目前对实现此目标的最佳方法的假设是部署约100个EC2实例,为每个实例提供50,000页以供抓取,然后继续运行,然后在该过程完成后将数据库合并在一起。假设运行大约需要一天(加载,解析和保存每个页面需要600毫秒)。 有没有人有在有限的时间内进行如此大量的页面抓取的经验?我之前(150万)做了大量工作,但是那是在一台机器上完成的,只花了一周多的时间就完成了。 我遇到的瓶颈是页面的下载,解析所需的时间不超过2毫秒,因此我正在寻找可以简化页面下载过程的内容。