如何阻止某些网址被索引

8

键入时site:example.com（显然是使用我的域），列表中显示了几个链接错误。通常，它们具有以下形式：/some/fixed/path/admin/unblockUser/11

我正在考虑将以下行添加到我的robots.txt文件中：

Disallow: /some/fixed/path/admin/*

— 西蒙·海特
source

18

有两种主要方法可以防止搜索引擎将特定页面编入索引：

您网域的Robots.txt文件。
每个页面上的Meta Robots标签。

对于与多个文件匹配的URL模式，Robots.txt应该是您的第一站。您可以在此处查看语法，并在此处更详细地了解。robots.txt文件必须放置在您域的根文件夹中，即位于http://www.yourdomain.com/robots.txt，并且其中应包含以下内容：

User-agent: *
Disallow: /path/with-trailing-slash/

（上面的文本着色是由Stackexchange软件完成的，应该忽略。）

Meta Robots标记更灵活，功能更强大，但必须插入到要影响的每个页面中。

Google再次概述了如何使用Meta Robots以及如何通过网站站长工具从其索引中删除页面。Wikipedia拥有有关Meta Robots的更全面的文档，包括特定于搜索引擎的派生工具。

如果要禁止Google，Web存档和其他搜索引擎保留网页副本，则需要以下标记（以HTML4格式显示）：

<meta name="robots" content="noarchive">

为了防止建立索引并保留副本：

<meta name="robots" content="noindex, noarchive">

并同时防止上述两种情况以及使用页面上的链接查找更多要索引的页面：

<meta name="robots" content="noindex, nofollow, noarchive">

注意1：以上所有3个元标记仅用于搜索引擎-它们不会影响HTTP代理或浏览器。

注意2：如果您已经有索引页面和存档页面，并且您通过robots.txt阻止页面，同时将meta标签添加到同一页面，则robots.txt将阻止搜索引擎看到更新的meta标签。

— 杰斯珀·M
source

1

否决了？为什么这在地球上被否决了？如果您不赞成，请发表评论，以便改善答案。

— Jesper M，2010年

@Jesper Mortensen您的最初答案根本没有解决缓存问题。您的修改已解决此问题，并使noindex信息更加完善。现在+1 ;-)

— mawtex

1

要记住的一件事是，robots.txt disallow指令不会阻止对URL编制索引，也不会导致从索引中删除该URL。搜索引擎可以并且将在不对URL进行爬网的情况下对其进行索引（如果不允许），因此，如果停止对URL进行索引非常重要（而不仅仅是停止对内容进行索引），则必须使用漫游器元标记或x -robots-tag HTTP标头，并确保不禁止对该URL进行爬网。

— 约翰·穆勒

1

另外，尽管不一定正确，但是带有“ noindex，noarchive”的漫游器元标记等效于“ noindex”（当未对URL进行索引时，也不会对其进行存档/缓存）。

— 约翰·穆勒

1

最后（抱歉，添加了这么多评论：-）），在这种特殊情况下（管理员页面），我将确保URL在未登录时返回403。这也可以防止搜索引擎对其进行索引，并且从理论上讲更加清晰比使用noindex机器人元标记返回200 +的页面要多。最终结果与搜索结果相同，但是使用正确的HTTP结果代码可以帮助您更轻松地识别日志中未经授权的管理员访问。

— 约翰·穆勒

5

实际上，还有第三种方法可以防止Google和其他搜索引擎为URL编制索引。这是X-Robots-TagHTTP响应标头。这比元标记更好，因为它适用于所有文档，并且您可以拥有一个以上的标记。

REP META标记使您可以有效控制网站上每个网页的索引方式。但是它仅适用于HTML页面。您如何控制对其他类型文档的访问，例如Adobe PDF文件，视频和音频文件以及其他类型？好了，现在所有其他文件类型都可以使用相同的灵活性来指定每个URL标记。

我们扩展了对META标签的支持，因此它们现在可以与任何文件关联。只需将任何受支持的META标签添加到用于提供文件的HTTP标头中的新X-Robots-Tag指令即可。以下是一些说明性示例：不要在Google搜索结果中显示此项的缓存链接或代码段：X-Robots-Tag：noarchive，nosnippet不要在Google搜索结果中包含此文档：X-Robots-Tag ：noindex告诉我们，文档将在2007年7月7日格林尼治标准时间下午4:30后不可用：X-Robots-Tag：unavailable_after：2007年7月7日16:30:00 GMT

您可以在同一文档中组合多个指令。例如：不要显示此文档的缓存链接，请在2007年7月23日下午3点之后的太平洋标准时间将其从索引中删除：X-Robots-Tag：noarchive X-Robots-Tag：unavailable_after：2007年7月23日15:00:00太平洋标准时间

— 约翰·康德
source

“ X-Robots_tag标头”链接已损坏。

— mawtex

感谢您的注意。Chrome似乎在格式化工具栏上存在问题，并且在链接中添加了额外的文字。

— 约翰·孔德

1

是的，这样可以解决问题。为了防止内容显示在Google索引中，您可以使用robots.txt或html meta标签

<meta name="robots" content="noindex, nofollow" />

下次将您的网站编入索引时，这会使您的内容退出Google索引。

您也可以使用该noarchive值-这将阻止页面缓存。这是Google特有的：

<meta name="robots" content="noarchive" />

您可以使用Google网站站长工具中的“删除工具”来请求非常紧急的内容删除。请注意，您应该首先阻止内容索引（使用robots.txt或meta robots标记）。

更多信息：

— 花胶
source

1

如果您的目标是不被大众看到，则最好在这组页面上输入密码。 和/或具有一些配置，该配置仅允许特定的白名单地址能够访问该站点（可以在服务器级别上完成，可能通过主机或服务器管理员来完成）。

如果您的目标是存在这些页面，而只是不被Google或其他搜索引擎（如其他人提到的那样）建立索引，则可以选择几种方法，但是我认为在此之间区分Google搜索的两个主要功能很重要意义：搜寻和索引。

检索与索引

Google会检索您的网站，Google会为您的网站编制索引。搜寻器找到您网站的页面，索引正在组织您网站的页面。更多信息在这里。

当试图阻止或从Google的“索引”中删除页面时，这一区别非常重要。许多人默认只通过robots.txt进行阻止，robots.txt是一个指令，告诉Google要抓取哪些内容（或不抓取哪些内容）。人们通常认为，如果Google不抓取您的网站，就不太可能对其进行索引。但是，看到被robots.txt阻止并在Google中建立索引的页面是极为普遍的。

Google和搜索引擎指令

这些类型的“指令”仅是对Google的建议，可以在您的网站的哪个部分进行爬网和建立索引。 他们不需要跟随他们。 这一点很重要。多年来，我已经看到许多开发人员认为他们可以通过robots.txt阻止该网站，但几周后突然在Google中将该网站编入索引。如果其他人链接到该网站，或者某个Google的抓取工具以某种方式获得了该网站的所有权，则仍可以将其编入索引。

最近，随着GSC（Google搜索控制台）的更新的信息中心，他们将这个报告称为“索引覆盖率报告”。网站管理员可以从这里获得以前从未直接获得过的新数据，有关Google如何处理一组特定页面的详细信息。我曾经听说过许多网站收到“警告”，标记为“已建立索引，但被Robots.txt阻止”。

Google的最新文档提到，如果您希望页面不在索引中，请向其添加noindex nofollow标记。

删除网址工具

只是基于其他人提到的“删除URL的工具”...。

如果页面已被索引，并且迫切需要删除它们，则Google的“删除URL工具”将允许您“暂时”阻止搜索结果中的页面。该请求持续了90天，但我使用它的目的是要比使用noindex，nofollow更快地从Google删除网页，有点像额外的图层。

Google仍会使用“删除URL工具”来抓取页面，并可能对其进行缓存，但是在使用此功能时，您可以添加noindex nofollow标记，这样它就可以看到它们，并且在90天之前起来，希望它不再索引您的页面。

重要提示：同时使用robots.txt和noindex nofollow标签向Google发出的信号有些冲突。

原因是，如果您告诉Google不要抓取页面，然后该页面上没有noindex nofollow，则可能无法抓取以查看noindex nofollow标记。然后可以通过其他方法（无论是链接还是其他方法）对它进行索引。为什么发生这种情况的细节相当模糊，但是我已经看到了。

简而言之，我认为，阻止对特定URL进行索引的最佳方法是在这些页面上添加noindex nofollow标记。这样一来，请确保您也不会使用robots.txt阻止这些URL，因为这可能会阻止Google正确看到这些标签。在Google处理您的noindex nofollow时，您可以利用“从Google删除URL”工具暂时将其从搜索结果中隐藏。

— 唤醒僵尸
source