Questions tagged «web-crawler»

7
爬网时如何成为好公民?
我将要开发一些功能,这些功能将爬网各种公共网站并处理/聚合它们上的数据。没有什么比寻找电子邮件地址更危险的了-实际上,这实际上可能会为他们的网站带来更多流量。但是我离题了。 除了兑现外robots.txt,我是否应该遵循任何书面或不成文的规则或准则,以便(a)避免表现为恶意并可能被禁止,以及(b)对网站所有者/网站管理员没有任何问题? 我可以想到的一些示例可能无关紧要: 并行请求数 两次请求之间的时间 两次爬网之间的时间 避免潜在的破坏性联系(不想成为“ 末日蜘蛛” -但谁知道这是否实际) 但是,那实际上只是吐痰。有没有经过实践检验的智慧,可以广泛地适用于打算编写或利用蜘蛛的任何人?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.