如何鼓励Google阅读新的robots.txt文件?


22

我刚刚在新网站上更新了robots.txt文件;Google网站管理员工具报告说,它在我最后一次更新前10分钟读取了我的robots.txt。

有什么方法可以鼓励Google尽快重新阅读robots.txt?

更新:在站点配置下| 搜寻器存取| 测试robots.txt:

主页访问显示:

Googlebot被阻止访问http://my.example.com/

仅供参考:Google上次阅读的robots.txt如下所示:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

我是否已经用脚开枪,或者它最终会显示为:http:///robots.txt(就像上次阅读它一样)?

关于我需要做什么的任何想法?


仅供参考:该站点是新站点,并且此消息显示在“设置” |“爬网速率”中:“您的站点已分配了特殊的爬网速率设置。您将无法更改爬网速率。”
qxotk

仅供参考:我在Google网上论坛中发现一个帖子,说Google会“每天至少阅读一次” robots.txt,有人可以确认吗?[google
网上论坛

仅供参考:1天过去了,谷歌尚未阅读我更新后的robots.txt。
qxotk 2010年

同样的问题,这不是“功能” ...
mate64 2013年

Answers:


25

万一其他人遇到此问题,有一种方法可以强制google-bot重新下载robots.txt文件。

转到健康->以Google身份获取[1]并使其获取/robots.txt

那将重新下载该文件,谷歌也将重新解析该文件。

[1]在先前的Google UI中为“诊断->以GoogleBot身份获取”。


11
不幸的是,如果您将robots.txt设置为,则此操作将无效Disallow: /。取而代之的是,提取报告为“ robots.txt拒绝”:/。
studgeek

3
下次添加此行。允许:/robots.txt
jrosell 2012年

我找不到“诊断”,也许用户界面已更改?
David Riccitelli

2
好的,现在是“健康”>“以Google身份获取”。
David Riccitelli

当我尝试获取robots.txt时对我不起作用。错误:“目前无法抓取该页面,因为该页面已被Googlebot下载的最新robots.txt文件阻止。请注意,如果您最近更新了robots.txt文件,则刷新可能最多需要两天的时间。您可以在帮助中心文章中找到有关robots.txt的更多信息。”
Indrek

4

我知道这很老了,但是...如果您上传了错误的robots.txt(禁止所有页面),则可以尝试以下操作:

  • 首先更正您的robots.txt以允许正确的页面,然后
  • 上载页面的sitemap.xml

当Google尝试读取xml网站地图时,它将再次检查robots.txt,迫使Google重新读取您的robots.txt。


这对我不起作用。它说站点地图已被robots.txt阻止
詹姆斯,

1

好。这是我所做的,几个小时后,Google重新读取了我的robots.txt文件。

我们每运行1个站点就有2个站点。我们称它们为规范站点(www.mysite.com)和裸域站点(mysite.com)。

我们已经设置了网站,以便mysite.com始终返回301重定向到www.mysite.com。

一旦我在Google网站管理员工具中设置了两个网站,并告知www.mysite.com是标准网站,它就会在读取标准网站上的robots.txt文件后不久。

我真的不知道为什么,但是那是发生了什么。


3
我知道这很久了,但是接受您自己的回答是100%合法的
马克·亨德森

0

将Google扫描间隔缩短几天。

另外,我在这里看到了buttom来验证您的robots.txt,这可能会迫使它进入Google,但我不确定。


你可以说得更详细点吗?我看到:站点配置| 搜寻器存取| 测试robots.txt,但它测试的是您粘贴在框中的文本,而不是实时的robots.txt文件-此外,这是它告诉我上次下载时间的地方。您所说的“验证”按钮在哪里?
qxotk
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.