Google是否会缓存robots.txt？

17

一周前，我在自己的一个网站上添加了robots.txt文件，这应该可以阻止Googlebot尝试获取某些网址。但是，这个周末我可以看到Googlebot正在加载这些确切的网址。

Google会缓存robots.txt吗？

googlebot robots.txt google-cache

— 夸格
source

13

我强烈建议您使用Google Search Console（以前称为Google网站管理员工具）注册您的网站。站点配置下有一个搜寻器访问部分，它将告诉您上次下载robots.txt的时间。该工具还提供了有关爬网程序如何查看您的网站，哪些内容被阻止或不起作用以及您在Google查询中出现的位置的许多详细信息。

据我所知，Google 经常下载robots.txt。Google Search Console网站还允许您从索引中专门删除URL，因此您可以删除那些您现在阻止的URL。

— Danivovich
source

2

我检查了网站站长工具：robots.txt文件是有效文件，它是googlebot最近一次访问这些页面之前17个小时获取的。我怀疑这是通过Google网络传播的问题-最终所有googlebot服务器都会追上robots.txt指令。

— Quog 2010年

Google僵尸程序使用的不是robots.txt，而是在Search Console中报告了更新的频率。自从我进行更新以来已经过去了四个星期，但Google机器人仍然使用了错误的robots.txt-并破坏了我们的访问量和排名。

— Corporate Geek，

3

坚持下去我从robots.txt更改为meta noindex，nofollow。为了使中继工作，必须首先解除robots.txt中被阻止的地址。

我通过完全删除robots.txt（并在Google网站站长中将其删除）来残酷地做到了这一点。

在网站站长工具中看到的robots.txt删除过程（被阻止的页面数）需要10周才能完成，其中大部分是在最近2周内被Google删除的。

— 阿拉德
source

我倾向于同意你的看法。我们犯了一个错误，并且错误地更新了robots.txt文件。Google对其进行了缓存，并在更正该错误四个星期后使用了它，并用新的robots.txt替换了它。我什至在Google网站站长工具中手动提交了刷新请求，但没有。这真的很糟糕，因为它导致流量和排名丢失。:(

— Corporate Geek，

2

是的，Google很明显会在一定程度上缓存robots.txt-它不会在每次查看页面时都下载它。我不知道它缓存了多长时间。但是，如果您设置了较长的Expires标头，则Googlebot可能会保留更长的时间来检查文件。

另一个问题可能是文件配置错误。danivovich建议的网站站长工具中，有一个robots.txt检查器。它会告诉您哪些页面类型被阻止，哪些页面很好。

— 心怀不满的山羊
source

见评论这个答案webmasters.stackexchange.com/questions/2272/...

— Quog

2

@Quog：请观看以下最新视频：youtube.com/watch? v=I2giR-WKUfY Matt Cutts建议robots.txt每天下载一次，或每100个请求下载一次。

— DisgruntledGoat 2010年

2

Google的文档指出，他们通常会将robots.txt缓存一天，但如果尝试刷新时出错，则可能会使用更长时间。

robots.txt请求通常最多可以缓存一天，但是在无法刷新缓存版本的情况下（例如，由于超时或5xx错误），可能会缓存更长的时间。缓存的响应可以由不同的搜寻器共享。Google可能会根据最大使用期限的Cache-Control HTTP标头来增加或减少缓存的寿命。

— 斯蒂芬·奥斯特米勒
source

1

是。他们说他们通常每天更新一次，但是有些人建议他们也可以在一定数量的页面点击数（100？）之后检查它，以便更频繁地检查繁忙的网站。

请参阅/webmasters//a/29946以及@DisgruntedGoat在http://youtube.com/watch?v=I2giR-WKUfY上方共享的视频。

— Studgeek
source

1

根据我在用户访问的缓存上看到的内容，您需要做的是将robots.txt文件的网址输入Google搜索，然后单击绿色的小下拉箭头，然后单击“缓存”（请参见下图）这将为您提供Google服务器上该页面的最新版本。

在此处输入图片说明

— 山姆
source

-2

您可以使用Google的网址删除工具要求将其删除。

— 小泽S
source

这不能回答问题。

— MrWhite 2015年

为什么不回答呢？

— KOZASHI SOUZA

由于该问题专门针对robots.txt，因此涉及URL的缓存和爬网。结果之一可能是没有为URL编制索引，但这不是问题。（Google的URL删除工具也只是“临时”修复，您需要执行其他步骤使其永久化。）

— MrWhite