Answers:
如果您认为他们过度爬网您的网站(甚至可能错过了更深的内容),则应确保HTTP标头返回的值是“上次修改时间”之类的好值。 。另外,您的网站在缓存方面(无论是基于代理还是基于浏览器)都会表现得更好,因此感觉更快。
您最好研究一下要爬网的URL(通过查看服务器日志)。如果他们一次又一次地重新抓取相同的URL,则您肯定有问题。一个常见的变体是如果您有一个页面,该页面可以使用请求变量以多种不同方式显示。Googlbot可能会尝试抓取这些变量的所有可能组合。
我作为爬网运算符遇到的一个示例是一个页面,其中包含二十个标题的列表,可以扩展其任意组合。基本上,该页面有2 ^ 20个不同的URL!
确保Googlebot不会停留在使用几乎不同的参数一遍又一遍地爬行基本相同的页面上(我已经看到它陷入了困境)