这是一个很大的问题,由于蜘蛛网极具侵略性,并且可以破坏服务器中的资源,因此许多网站管理员可能对此很感兴趣...
作为百度的网页搜索消息指出,蜘蛛不支持抓取延迟通知设置百度,而是需要你注册并拥有百度网站管理员工具平台验证您的网站,说明这里在其网站上。这似乎是直接通过百度控制抓取频率的唯一选项。
问题在于,其他垃圾邮件机器人使用百度的用户代理程序(在此处第2号下列出)来抓捕您的网站,如其常见问题解答在此处第4号下所示。因此,请求降低百度的抓取速度可能无法解决所有问题。
因此,如果您决定使用百度的网站管理员工具,则最好通过使用Bots vs Browsers Database之类的资源或使用反向DNS查找,将其用户代理与已知与之关联的IP进行比较。
唯一的其他选择是阻止所有百度用户代理,从而牺牲来自百度的潜在流量,或者尝试使用mod_qos之类的Apache 来限制过多的请求,该声明声称可以管理:
- 对位置/资源(URL)或虚拟主机的最大并发请求数。
- 带宽的限制,例如每秒对URL的最大允许请求数或每秒最大/最小下载的千字节。
- 限制每秒的请求事件数(特殊请求条件)。
- 它还可以“检测”非常重要的人员(VIP),这些人员可以不受限制地访问网络服务器,也可以减少限制。
- 通用请求行和标头过滤器可拒绝未经授权的操作。请求正文数据限制和过滤(需要mod_parp)。
- TCP连接级别的限制,例如,来自单个IP源地址或动态保持活动控制的最大允许连接数。
- 服务器可用的TCP连接用尽时,优先使用已知的IP地址。
我没有发现使用百度网站管理员工具的经验,该工具加载缓慢且存在翻译问题(也没有英语版本)。这可能会有所帮助,但是当然基于意见。