Google是否会缓存robots.txt?


17

一周前,我在自己的一个网站上添加了robots.txt文件,这应该可以阻止Googlebot尝试获取某些网址。但是,这个周末我可以看到Googlebot正在加载这些确切的网址。

Google会缓存robots.txt吗?

Answers:


13

我强烈建议您使用Google Search Console(以前称为Google网站管理员工具)注册您的网站。站点配置下有一个搜寻器访问部分,它将告诉您上次下载robots.txt的时间。该工具还提供了有关爬网程序如何查看您的网站,哪些内容被阻止或不起作用以及您在Google查询中出现的位置的许多详细信息。

据我所知,Google 经常下载robots.txt。Google Search Console网站还允许您从索引中专门删除URL,因此您可以删除那些您现在阻止的URL。


2
我检查了网站站长工具:robots.txt文件是有效文件,它是googlebot最近一次访问这些页面之前17个小时获取的。我怀疑这是通过Google网络传播的问题-最终所有googlebot服务器都会追上robots.txt指令。
Quog 2010年

Google僵尸程序使用的不是robots.txt,而是在Search Console中报告了更新的频率。自从我进行更新以来已经过去了四个星期,但Google机器人仍然使用了错误的robots.txt-并破坏了我们的访问量和排名。
Corporate Geek,

3

坚持下去 我从robots.txt更改为meta noindex,nofollow。为了使中继工作,必须首先解除robots.txt中被阻止的地址。

我通过完全删除robots.txt(并在Google网站站长中将其删除)来残酷地做到了这一点。

在网站站长工具中看到的robots.txt删除过程(被阻止的页面数)需要10周才能完成,其中大部分是在最近2周内被Google删除的。


我倾向于同意你的看法。我们犯了一个错误,并且错误地更新了robots.txt文件。Google对其进行了缓存,并在更正该错误四个星期后使用了它,并用新的robots.txt替换了它。我什至在Google网站站长工具中手动提交了刷新请求,但没有。这真的很糟糕,因为它导致流量和排名丢失。:(
Corporate Geek,

2

是的,Google很明显会在一定程度上缓存robots.txt-它不会在每次查看页面时都下载它。我不知道它缓存了多长时间。但是,如果您设置了较长的Expires标头,则Googlebot可能会保留更长的时间来检查文件。

另一个问题可能是文件配置错误。danivovich建议的网站站长工具中,有一个robots.txt检查器。它会告诉您哪些页面类型被阻止,哪些页面很好。



2
@Quog:请观看以下最新视频:youtube.com/watch? v=I2giR-WKUfY Matt Cutts建议robots.txt每天下载一次,或每100个请求下载一次。
DisgruntledGoat 2010年

2

Google的文档指出,他们通常会将robots.txt缓存一天,但如果尝试刷新时出错,则可能会使用更长时间。

robots.txt请求通常最多可以缓存一天,但是在无法刷新缓存版本的情况下(例如,由于超时或5xx错误),可能会缓存更长的时间。缓存的响应可以由不同的搜寻器共享。Google可能会根据最大使用期限的Cache-Control HTTP标头来增加或减少缓存的寿命。



1

根据我在用户访问的缓存上看到的内容,您需要做的是将robots.txt文件的网址输入Google搜索,然后单击绿色的小下拉箭头,然后单击“缓存”(请参见下图)这将为您提供Google服务器上该页面的最新版本。

在此处输入图片说明


-2

您可以使用Google的网址删除工具要求将其删除。


这不能回答问题。
MrWhite 2015年

为什么不回答呢?
KOZASHI SOUZA

由于该问题专门针对robots.txt,因此涉及URL的缓存和爬网。结果之一可能是没有为URL编制索引,但这不是问题。(Google的URL删除工具也只是“临时”修复,您需要执行其他步骤使其永久化。)
MrWhite
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.