robots.txt中的“ Noindex:”如何工作?


10

我今天在我的SEO新闻中浏览了这篇文章。似乎暗示您Noindex:除了robots.txt中的标准Disallow:指令外,还可以使用指令。

Disallow: /page-one.html
Noindex: /page-two.html

似乎这样做会阻止搜索引擎抓取第一页,并阻止它们索引第二页。

这是robots.txt的谷歌和其他搜索引擎所支持的指令?它行得通吗?有文件记录吗?


我不知道...但是这可能对某些人很有帮助。同样,我希望站点地图扩展为更具交流性。在漫游器和站点地图之间,这应该是与搜索引擎及其他人交流有关站点的绝佳机会。我也支持基于文本的机会,以不同于搜索页面(如“关于”页面)的方式,以不同的方式向搜索引擎通知网站,就好像您有机会直接与Google网站审阅者交谈一样。它可以节省一些心痛和误解。有机会说Ooopppsss,抱歉,对不起。
closetnoc

我的印象是,disallow如果存在的话,谷歌将停止在父页面和子页面上发现链接。尽管noindex只是停止列出页面,但不允许则不会停止发现。
西蒙·海特

@SimonHayter我知道这是nofollow元标记的工作方式。很高兴知道robots.txt是否也是这种情况。
斯蒂芬·奥斯特米勒

嘿@StephenOstermiller不仅是meta标签,它也是<a rel="no-follow">如此。我认为没有理由将其视为任何不同。显然,这不是官方的,John Muller甚至建议不要在robots.txt中使用它,但是除了他的推文之外,我没有找到太多有关它的信息。
西蒙·海特

值得注意的是,Google不再将文件中的Noindex指令标记robots.txt为错误。
阿兰(Aran)

Answers:


9

谷歌曾经Noindex在robots.txt中非正式地支持指令,但是在2019年,他们宣布该指令将不再有效。

这是Google的John Mueller Noindex:robots.txt中所说的

我们曾经在robots.txt中支持no-index指令作为实验功能。但这是我不会依赖的东西。而且我认为其他搜索引擎根本不会使用它。

在Google宣布该功能停止使用之前,deepcrawl.com对该功能进行了一些测试,发现:

  • 在2019年之前,它仍与Google合作
  • 它阻止了URL出现在搜索索引中
  • robots.txt中未索引的网址在Google Search Console中被标记为此类网址

鉴于Google已停止使用该功能,因此不应再使用它。

相反,请使用受良好支持和记录的漫游器元标记,以防止编制索引:

<meta name="robots" content="noindex" />
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.