防止XML网站地图显示在Google搜索结果中


23

如何防止XML网站地图文件显示在Google搜索结果中,例如site:搜索查询的结果:

搜索结果中的站点地图

我不明白为什么Google首先会选择在搜索结果中显示站点地图文件。这些文件不供人类使用。

Google需要能够对其进行爬网以进行处理,因此我不能在robots.txt中禁止它。我只是不希望他们在处理之后将其放入搜索结果中。


1
嗯 有趣。我唯一想到的是您的网站上是否有指向它的链接,或者它出现在站点地图文件中。同样,如果这可能是一个因素,我不确定是否可以在robots.txt文件中引用它。我不会这么认为,只是要考虑一下。我仅通过Google WMT提供了站点地图,并且尚未看到此问题-至少现在还没有。我可以理解,不想让您的站点地图公开。我不要我的公开。那里有太多的黑客/爬虫。
closetnoc

3
在此特定网站上,我/sitemap.xmlrobots.txt中列出了该网站,然后该网站链接到其他一组不同的站点地图,例如/sitemap-123.xml/sitemap-124.xml。我每天都会重新生成站点地图,并且数字每天都在变化。被索引的是一个相当古老的索引。我没有在网站上的任何位置链接到它,但是其他网站可能在某处链接到它。
斯蒂芬Ostermiller

1
如果未使用它,请确保将其删除,然后将其排除在robots.txt文件中,它会很快从SERP中删除。奇怪的是,尽管robots.txt相当快,但Google WMT中的删除URL会花费很多时间(对我来说是几个月)。
closetnoc

1
您是否已将XML网站地图提交到GWMT帐户?
奥莱格

3
直到今天,站点地图文件仍然存在。我删除了它,现在将其重定向到/sitemap.xml 我认为该特定站点地图现在将脱离索引。我也想阻止Google将来也将其显示给搜索用户。
斯蒂芬Ostermiller

Answers:


18

Google会为XML网站地图建立索引(就像其他XML文件一样)。如果Google知道一个URL并返回有效的响应,则它将通过Google的包含规则并可能被索引。就个人而言,我仅通过GWT提交站点地图,并Sitemap:在robots.txt中包含引用,这肯定足以将其编入索引。

推荐的防止Google索引这些文件的方法是X-Robots-Tag在提供XML网站地图时包括HTTP响应标头。例如:

X-Robots-Tag: noindex

就像在HTML文件中包含机械手META标签一样,X-Robots-Tag标头可用于任何类型的文件。

参考:该文档(从2008年11月开始!)似乎引用了我们自己的John Mueller(Google)关于X-Robots-Tag处理XML网站地图时使用响应的问题。
是的,Google会为您的XML Sitemap文件编制索引并对其进行排名

有关更多信息,请参阅Google开发人员指南:
机器人元标记和X-Robots-Tag HTTP标头规范


我应该在哪里写X-Robots-Tag: noindex头代码?里面sitemap.xml还是robots.txt
xameeramir '16

1
@student这是HTTP响应标头,因此必须提供这些文件之前将其设置(作为HTTP响应标头的一部分)-不能在它们“内部”设置它。根据服务这些文件的方式,您可以在服务器端代码中(例如,在PHP中header('X-Robots-Tag: noindex',true))进行设置,或者,如果您使用的是Apache,则可以在.htaccess文件或服务器配置中进行设置。有关示例代码,请参见Stephen的答案。另请参见上面链接的Google开发者指南。
怀特先生


2

为什么这有关系?

如果您实际上可以在SERP中找到您的站点地图,那么您会遇到更大的问题。

我将更多地专注于用有用​​的内容来创建页面。这样一来,即使找到站点地图也将非常困难。无论如何,那并不是说您会在乎。

聚苯乙烯

几乎每个人都将站点地图保存在同一位置。因此,如果有人想找到您保存的位置,他们会:)


4
我使用Google进行网站搜索,使用时偶然发现了一个站点地图。如果我的用户单击它,将会非常混乱。
斯蒂芬Ostermiller

您认为您有多少用户使用Google进行网站搜索?
dasickle

3
在我页面顶部的搜索框中输入搜索字词的所有用户。
斯蒂芬Ostermiller

在这种情况下。您是否考虑过使用swiftype.com之类的网站进行搜索?您可以使用其他功能。您可以重新排序,删除和添加结果。您还可以获得出色的统计数据,等等
。– dasickle

-6

将以下内容放入robots.txt

User-agent: *
Disallow: /sitemap.xml

而是通过Google网站站长工具提交您的站点地图。


1
您能否阐明您的逻辑-您的第一句话似乎与您的最后一句话发生冲突?
怀特先生

5
Google仍会抓取robots.txt中阻止的站点地图吗?您有支持断言的参考吗?
斯蒂芬Ostermiller

4
如果您不允许sitemap.xml,我很确定它不会再被爬网。不是您想要发生的事情!
2014年

2
Google不会在禁止robots.txt的情况下抓取任何文档。无论如何,不​​常见...包括站点地图。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.