robots.txt中的“ Noindex：”如何工作？

我今天在我的SEO新闻中浏览了这篇文章。似乎暗示您Noindex:除了robots.txt中的标准Disallow:指令外，还可以使用指令。

Disallow: /page-one.html
Noindex: /page-two.html

似乎这样做会阻止搜索引擎抓取第一页，并阻止它们索引第二页。

这是robots.txt的谷歌和其他搜索引擎所支持的指令？它行得通吗？有文件记录吗？

— 斯蒂芬·奥斯特米勒
source

我不知道...但是这可能对某些人很有帮助。同样，我希望站点地图扩展为更具交流性。在漫游器和站点地图之间，这应该是与搜索引擎及其他人交流有关站点的绝佳机会。我也支持基于文本的机会，以不同于搜索页面（如“关于”页面）的方式，以不同的方式向搜索引擎通知网站，就好像您有机会直接与Google网站审阅者交谈一样。它可以节省一些心痛和误解。有机会说Ooopppsss，抱歉，对不起。

— closetnoc

我的印象是，disallow如果存在的话，谷歌将停止在父页面和子页面上发现链接。尽管noindex只是停止列出页面，但不允许则不会停止发现。

— 西蒙·海特

@SimonHayter我知道这是nofollow元标记的工作方式。很高兴知道robots.txt是否也是这种情况。

— 斯蒂芬·奥斯特米勒

嘿@StephenOstermiller不仅是meta标签，它也是<a rel="no-follow">如此。我认为没有理由将其视为任何不同。显然，这不是官方的，John Muller甚至建议不要在robots.txt中使用它，但是除了他的推文之外，我没有找到太多有关它的信息。

— 西蒙·海特

值得注意的是，Google不再将文件中的Noindex指令标记robots.txt为错误。

— 阿兰（Aran）

谷歌曾经Noindex在robots.txt中非正式地支持指令，但是在2019年，他们宣布该指令将不再有效。

这是Google的John Mueller Noindex:在robots.txt中所说的：

我们曾经在robots.txt中支持no-index指令作为实验功能。但这是我不会依赖的东西。而且我认为其他搜索引擎根本不会使用它。

在Google宣布该功能停止使用之前，deepcrawl.com对该功能进行了一些测试，发现：

在2019年之前，它仍与Google合作
它阻止了URL出现在搜索索引中
在robots.txt中未索引的网址在Google Search Console中被标记为此类网址

鉴于Google已停止使用该功能，因此不应再使用它。

相反，请使用受良好支持和记录的漫游器元标记，以防止编制索引：

<meta name="robots" content="noindex" />

— 斯蒂芬·奥斯特米勒
source