Answers:
没有机器人排除协议兼容的搜索引擎可以抓取任何 robots.txt中禁止的URL,无论身在何处否则可能会被列出。
但是,Google不一定必须对您的URL 进行爬网以建立索引。 如果他们认为自己有足够的证据表明该URL上确实存在一个页面(并且站点地图列出了很可能算作此类证据),那么他们可以简单地决定将URL添加到其索引中而没有任何内容。引用Google网站站长工具帮助页面:
“尽管Google不会抓取或索引robots.txt阻止的页面的内容,但如果我们在网络上的其他页面上找到了这些URL,我们仍然可以为这些URL编制索引。因此,该页面的URL以及可能的其他URL公开可用的信息,例如网站链接中的锚文本或Open Directory Project(www.dmoz.org)的标题,都可以显示在Google搜索结果中。”
这样的页面可以作为搜索结果出现,例如针对URL本身中包含的单词或指向该页面的链接中使用的单词。
因此,如果您都在站点地图中列出了一个页面,并且在robots.txt中不允许该页面,则Google很有可能会对该页面的URL进行索引,但不会为其内容建立索引。
Itai的答案是正确的,因此除了回答您的特定问题外,没有什么要增加的主要内容了……
站点地图不能胜过robots.txt,站点地图不为网站上的抓取工具提供任何说明/指令。他们甚至没有可比性。如果您指示机器人不要访问/跟随,/foo
则任何遵循您的机器人指令的机器人都将根本不会访问该目录,无论它们到达那里的路径是什么(站点地图或其他方式)。
在Google网站管理员中:显示XML网站地图中的错误:“您在robots.txt文件中放置了防止抓取的链接。Google首选robots.txt文件而不是Sitemap。