Google网站管理员工具告诉我，机器人阻止了对站点地图的访问

这是我的robots.txt：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

但是Google网站站长工具告诉我，机器人阻止了对站点地图的访问：

尝试访问您的站点地图时遇到错误。请确保您的站点地图符合我们的指南，并且可以在您提供的位置进行访问，然后重新提交：URL受robots.txt限制。

我了解到Google网站站长工具会缓存robots.txt，但该文件已更新36个小时以上。

更新：

点击“测试”站点地图不会导致Google获取新的站点地图。只有SUBMIT网站地图可以做到这一点。（顺便说一句，除非您将当前站点地图粘贴到其中，否则我看不出“测试站点地图”的意义是什么-它不会从测试前要求您输入的地址中提取站点地图的新副本-但这是换个问题。）

提交（而非测试）新的站点地图后，情况发生了变化。现在，我得到“ URL被robots.txt阻止。站点地图包含被robots.txt阻止的URL 。” 适用于44个网址。该站点地图中恰好有44个URL。这意味着Google使用的是新的站点地图，但仍旧沿用旧的机器人规则（这使所有内容都无法进入）。44个URL都不在/wp-admin/或/wp-includes/（这是不可能的，因为robots.txt是基于由创建站点地图的相同插件即时获取）。

更新2：

情况变得更糟：在Google搜索结果页上，首页的描述为：“由于该网站的robots.txt –了解更多，因此无法提供此结果的描述”。所有其他页面都有详细的说明。没有robots.txt或首页的robots元拦截索引。

我被卡住了。

google-search-console robots.txt web-crawlers

— 盖亚
source

在Google网站站长工具>运行状况>阻止的网址中，您可以立即测试robots.txt是否会阻止您的站点地图网址（或您要测试的任何其他网址）。您当前的 robots.txt 似乎不应该阻止您的站点地图，但是您说它已经更新。您的robots.txt文件的先前版本是否阻止了此操作？

— MrWhite 2012年

是的，以前的版本确实阻止了。我猜谷歌还没有更新缓存...

— Gaia 2012年

我也有完全一样的问题。我的robots.txt缓存是从今年4月23日开始的，今天是4月25日，并且缓存仍然很旧。我没有时间等待，我现在需要googleboot索引我的网站（它是商业网站），但看来我无能为力，只是等着不知道要等多久。太令人沮丧了！

Answers:

看来Google可能尚未更新您robots.txt文件的缓存。您当前的robots.txt文件（上方）看起来好像应该阻止您的站点地图URL。

我猜谷歌还没有更新它的缓存。

无需猜测。在Google网站站长工具（GWT）的“健康”>“阻止的网址”下，您可以查看robots.txt的上次下载时间以及是否成功。它还会通知您robots.txt文件已阻止了多少个URL。

Google网站管理员工具中的robots.txt参考

如我的评论所述，GWT有一个robots.txt检查器工具（“运行状况”>“阻止的网址”）。因此，您可以立即测试对robots.txt的更改（无需更改实际文件）。在上方的文本区域中指定robots.txt文件，并在下方的文本区域中指定要测试的URL，它将告诉您是否将其阻止。

缓存robots.txt

robots.txt请求通常最多可以缓存一天，但是在无法刷新缓存版本的情况下（例如，由于超时或5xx错误），可能会缓存更长的时间。缓存的响应可以由不同的搜寻器共享。Google可能会根据最大使用期限的Cache-Control HTTP标头来增加或减少缓存的寿命。

来源：Google Developers-Robots.txt规范

— 怀特先生
source

24小时后仍然会如此吗？

— 盖亚2012年

网站站长工具中报告的“下载”日期是什么？这将告诉您是否仍然如此。如上面的屏幕快照所示（来自我的一个站点），robots.txt文件的最新下载时间为“ 2012年9月3日”（3天前）。但是在我的情况下，由于没有任何更改，因此无需再次下载文件（Last-Modified标头应该相同）。Google提取robots.txt文件的频率取决于服务器设置的Expires和Last-Modified标头。

— MrWhite 2012年

已于22小时前下载，过期标头显示+24小时。我将在几个小时后再试一次，应该解决！

— 盖亚2012年

那没做。google使用的是新的站点地图，但仍沿用旧的robots.txt规则（该规则使所有内容都无法进入）

— Gaia 2012年

“那没做”-Google尚未更新您的robots.txt文件的缓存吗？尽管您说您在36个小时前更改了文件，但据报告22个小时前已下载了文件？单击指向robots.txt文件的链接会看到什么？

— MrWhite 2012年

我的网站存在相同的问题，因为在安装WP期间，我选择了“不使用搜索引擎或相同选项进行跟踪”。

解决此问题的方法：

转到网站站长工具，抓取删除URL并www.example.com/robots.txt使用此选项提交->从缓存中删除更改内容或...
等一会儿
重新提交您的站点地图网址
完

— 穆罕默德
source