了解Google抓取统计信息


11

我于11年1月启动了我的网站,该网站已在Google上建立了索引,这非常好-迄今为止已有约300页的内容。我试图了解6月底至7月初发生的抓取统计信息。是什么导致了大规模的攀登?这意味着什么?我还有什么需要做的吗?


在此处输入图片说明

Answers:


2

如果您认为他们过度爬网您的网站(甚至可能错过了更深的内容),则应确保HTTP标头返回的值是“上次修改时间”之类的好值。 。另外,您的网站在缓存方面(无论是基于代理还是基于浏览器)都会表现得更好,因此感觉更快。

您最好研究一下要爬网的URL(通过查看服务器日志)。如果他们一次又一次地重新抓取相同的URL,则您肯定有问题。一个常见的变体是如果您有一个页面,该页面可以使用请求变量以多种不同方式显示。Googlbot可能会尝试抓取这些变量的所有可能组合

我作为爬网运算符遇到的一个示例是一个页面,其中包含二十个标题的列表,可以扩展其任意组合。基本上,该页面有2 ^ 20个不同的URL!

确保Googlebot不会停留在使用几乎不同的参数一遍又一遍地爬行基本相同的页面上(我已经看到它陷入了困境)


为此,我注意到今天有另外一个“尖峰”活动,因此越来越令人担忧,因为Google的抓取统计信息抓取了1000页的内容-我只有300页!如何查看Google一次又一次重新爬网的页面?以及如何检查我的HTTP标头是否返回了良好的值-是否有测试应用程序?
Ubique

您的服务器日志应告诉您Google正在抓取哪些页面。至于HTTP标头,有许多Firefox插件。我个人使用Firebug。
克里斯(Kris)

1

我猜Google会根据网站的年龄,受欢迎程度(指向您的网站的链接),标记和标题,正确的网站地图等来更改抓取速度。他们不久前还更改了抓取工具,因此现在内容在搜索结果中的显示速度比以前更快(至少在更改前2周)。

因此,当我2年前发布自己的博客时,Google花费了几个月的时间来索引所有内容,并花了数周的时间来索引新帖子。现在,我发布同一天在搜索结果中看到的任何帖子。

很简单,谷歌不喜欢新网站,而是尊重长者。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.