软件工程 web-crawler

爬网时如何成为好公民？

我将要开发一些功能，这些功能将爬网各种公共网站并处理/聚合它们上的数据。没有什么比寻找电子邮件地址更危险的了-实际上，这实际上可能会为他们的网站带来更多流量。但是我离题了。除了兑现外robots.txt，我是否应该遵循任何书面或不成文的规则或准则，以便（a）避免表现为恶意并可能被禁止，以及（b）对网站所有者/网站管理员没有任何问题？我可以想到的一些示例可能无关紧要：并行请求数两次请求之间的时间两次爬网之间的时间避免潜在的破坏性联系（不想成为“ 末日蜘蛛” -但谁知道这是否实际）但是，那实际上只是吐痰。有没有经过实践检验的智慧，可以广泛地适用于打算编写或利用蜘蛛的任何人？

83 web-scraping web-crawler

Questions tagged «web-crawler»