根据对这个主题的研究,我发现没有100%保证的方法来防止对数据进行索引和缓存,但是您可以做到相当高的保证(假设您想处理增加的机器人流量)。这是我对信息的解释方式。
有人会认为robots.txt文件用于定义站点范围内的机器人信息,而meta标签用于页面特定的详细信息。我认为2背后的精神就是这样,但实际上并非如此。
不要创建robots.txt文件
这适用于所有主要的搜索服务提供商,以防止出现在搜索结果页面的内容,但并 不能 阻止索引。这也可以防止漫游器抓取您的页面,因此也将忽略所有漫游器元标记(请参见下文)。因此,您不能将2一起使用,这就是为什么如果要防止建立索引,则不应使用robots.txt文件。
旁注:Google确实支持Noindex: /
在robots.txt中使用,但它没有记录(谁知道它何时会破裂),也不清楚它是否对其他任何人都有效。
使用HTTP标头或HTML META标签可防止一切
与robots.txt文件不同,robots meta标记(和HTTP标头)得到了广泛的支持,并且令人惊讶的是,它具有丰富的功能。它的设计目的是在每个页面上进行设置,但是由于最近采用了X-Robots-Tag
标头,因此可以轻松在整个网站范围内进行设置。这种方法的唯一缺点是,漫游器会抓取您的网站。这可以通过使用来限制nofollow
,但并非所有漫游器都真正尊重nofollow
。
我在这篇过时的博客文章中找到了大量信息。它的原始版本是2007年,但是由于此后的许多信息都是较新的功能,因此它似乎会定期更新。
总之,您应该发送HTTP标头X-Robots-Tag: noindex,nofollow,noodp,noydir
。以下是原因的细分:
nofollow
应该限制您网站上抓取的页面数量,从而减少漫游器流量。* noindex
告诉引擎不索引页面。
- 现在,您可能认为这
noindex
足够了。但是,我发现即使您说noindex
您的网站可能由于其他链接到该网站的网站而被索引。防止常见网站链接来自Y的最佳方法!目录(noydir
)和打开目录(noodp
)。
- 使用HTTP标头还会将漫游器数据应用于文件,图像和其他非HTML文件!好极了!
这将在99%的情况下起作用。请记住,尽管在某些情况下某些提供程序仍可能将其编入索引。Google声称完全尊重Google noindex
,但我对此表示怀疑。
最后,如果您确实已建立索引或已经被建立索引,则将您的信息取消索引的唯一方法是遵循每个提供商的各种方法来请求删除站点/ URL。显然,这意味着您可能希望使用Google警报(感谢@Joe)之类的工具监视网站/页面。