被域拒绝的机器人仍在搜索结果中列出

9

因此，在我们所有不面向搜索的网站上，我们都应用了robots.txt文件（请参阅“ 如何从实时Google搜索结果中排除网站？ ”或其他类似问题）。

但是，如果搜索词足够具体，则可以通过结果找到域本身。一个例子可以在这里找到。从链接中可以看到，可以找到域本身（未缓存内容，但列出了域）。此外，执行搜索site:hyundaidigitalmarketing.com应包含3个结果。检查反向链接也提供了一些，但是我显然不能阻止它们（在上下文中允许链接）或控制它们的处理方式（不能告诉主机添加nofollow，noindex）。

现在，我知道这是一个严重的案例，但是我公司的客户正在这样做。实际上，我们的域名非常好，因此，即使是表面上任意的搜索也能找到相关的结果。现在，我必须写一份关于这种情况发生的原因的报告。

因此，我转向了出色的Stack Exchange网络，以帮助我了解我所缺少的或正在发生的事情。指向行业文章的链接非常有帮助，但是您可以提供的任何东西显然都很棒。我确实打算尽力提供赏金，以使这成为将来的答案。

编辑：我已经悬赏这个问题，希望得到更多的答复。我还在下面提供了我自己的研究结果。

seo robots.txt

— 凯文·佩诺
source

5

我必须去寻找这些信息的来源，但是显然robots.txt不一定会阻止页面被索引。但是，HTTP x-robots-tag标头确实可以正常工作。

如果您使用的是Apache，则可以使用.htaccess文件中的以下行来批量阻止页面：

Header set x-robots-tag: noindex

试试看，看看会发生什么。

编辑

（找到了一个来源。不是我记得的那个，但是它可以工作）。

— 约翰·康德
source

您好，谢谢您的回答。这与上面示例中的网站html输出中已经实现的robots元标记有何不同？据我所知，它只是替代品，因此您无需在每个页面上都放上它。

— 凯文·佩诺

@Kevin，在有效性方面应该相同。如您所说，这将更易于管理。

— 约翰·孔德

4

我认为Matt Cutts谈到了这一点。如果我的记忆正确，则与链接有关。这是更多信息：http : //www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=zh-CN

您可以使用Google删除工具将其删除。

— 乔
source

您可以通过以下网站查看所有这些信息：site：gmpackageguide.com URL很少。我认为在禁止使用机器人之前，它们已经列入索引。我会删除它们。

— 乔

将来，我会指示网页设计人员在网页标题部分始终不要包含任何索引，也不要遵循。我怀疑您使用的CMS可以做到这一点。

— 乔

@Joe-同意，但建议noindex, follow这样做，以便通过可能发生的反向链接分发任何PageRank。

— Mike Hudson

@Joe和@Mike，感谢您提供信息。但是，请访问以下站点：hyundaidigitalmarketing.com。我一年前自己启动了这个网站。它同时包含robots.txt文件和meta标头。但是，正如您所看到的那样，表单会在google上搜索带有site:hyundaidigitalmarketing.com或的字词hyundai digital marketing，该域本身将继续显示为最佳结果。我需要防止这种情况。

— 凯文·佩诺

此外，搜索还会links:hyundaidigitalmarketing.com显示反向链接。我显然无法阻止或控制格式反向链接，它们可能是有效的。如果链接到该网站导致此，我需要了解如何/为什么，以便向上司解释。我希望这可以更好地解释我的问题。

— 凯文·佩诺

3

根据对这个主题的研究，我发现没有100％保证的方法来防止对数据进行索引和缓存，但是您可以做到相当高的保证（假设您想处理增加的机器人流量）。这是我对信息的解释方式。

有人会认为robots.txt文件用于定义站点范围内的机器人信息，而meta标签用于页面特定的详细信息。我认为2背后的精神就是这样，但实际上并非如此。

不要创建robots.txt文件

这适用于所有主要的搜索服务提供商，以防止出现在搜索结果页面的内容，但并不能阻止索引。这也可以防止漫游器抓取您的页面，因此也将忽略所有漫游器元标记（请参见下文）。因此，您不能将2一起使用，这就是为什么如果要防止建立索引，则不应使用robots.txt文件。

旁注：Google确实支持Noindex: /在robots.txt中使用，但它没有记录（谁知道它何时会破裂），也不清楚它是否对其他任何人都有效。

使用HTTP标头或HTML META标签可防止一切

与robots.txt文件不同，robots meta标记（和HTTP标头）得到了广泛的支持，并且令人惊讶的是，它具有丰富的功能。它的设计目的是在每个页面上进行设置，但是由于最近采用了X-Robots-Tag标头，因此可以轻松在整个网站范围内进行设置。这种方法的唯一缺点是，漫游器会抓取您的网站。这可以通过使用来限制nofollow，但并非所有漫游器都真正尊重nofollow。

我在这篇过时的博客文章中找到了大量信息。它的原始版本是2007年，但是由于此后的许多信息都是较新的功能，因此它似乎会定期更新。

总之，您应该发送HTTP标头X-Robots-Tag: noindex,nofollow,noodp,noydir。以下是原因的细分：

nofollow应该限制您网站上抓取的页面数量，从而减少漫游器流量。* noindex告诉引擎不索引页面。
现在，您可能认为这noindex足够了。但是，我发现即使您说noindex您的网站可能由于其他链接到该网站的网站而被索引。防止常见网站链接来自Y的最佳方法！目录（noydir）和打开目录（noodp）。
使用HTTP标头还会将漫游器数据应用于文件，图像和其他非HTML文件！好极了！

这将在99％的情况下起作用。请记住，尽管在某些情况下某些提供程序仍可能将其编入索引。Google声称完全尊重Google noindex，但我对此表示怀疑。

最后，如果您确实已建立索引或已经被建立索引，则将您的信息取消索引的唯一方法是遵循每个提供商的各种方法来请求删除站点/ URL。显然，这意味着您可能希望使用Google警报（感谢@Joe）之类的工具监视网站/页面。

— 凯文·佩诺
source

3

我认为您的基本问题是网站的反向链接，因为这些链接为搜索引擎提供了进入该网站的入口点，并使他们意识到这一点。因此，尽管他们不会显示该站点的描述，但是如果他们认为该URL与结果最匹配，则可以显示该URL。

阅读了一篇与@joe发布的文章相关的文章：Matt Cutts将Google排除在外

关键是：

这是有充分的理由的：早在2000年当我在Google创立Google时，几个有用的网站（eBay，《纽约时报》和加利福尼亚DMV）就拥有robots.txt文件，该文件禁止任何内容获取。现在，我问您，当有人执行查询[california dmv]时，我们应该作为搜索结果返回什么？如果不返回www.dmv.ca.gov作为第一个结果，我们会感到非常难过。但请记住：当时我们不允许从www.dmv.ca.gov提取页面。解决方案是在我们高度确信它是正确的链接时显示未爬网的链接。有时我们甚至可以从Open Directory Project中提取描述，以便即使不获取页面也可以向用户提供很多信息。

您所做的研究还涵盖了所有安静的问题，并且@john和@joe的答案都相关。我在下面提供了一个链接，该链接为阻止搜索引擎提供了进一步的指导。我认为完全阻止该网站的唯一方法是在该网站的前面添加某种形式的密码保护，该密码保护需要在显示内容之前完成。

SEOMoz关于未出现在搜索中的提示

— 马修·布鲁克斯（Matthew Brookes）
source

感谢您加入讨论。密码保护可以很好地防止爬网，但不能防止编制索引。由于robots.txt可以很好地阻止这种情况的发生，因此密码保护的唯一优势在于，它将防止窥探他人发现它。不幸的是，大多数内容都不足够敏感以至于无法“保护”，并且当然不能警告它所造成的可用性问题。[续...]

— Kevin Peno

我发现对我的研究最有帮助的一个类比是与电话簿的比较。如果搜索引擎是电话簿，并且您要求不列出，那么您可以要求不列出，并且他们应该尊重这一点。不幸的是，搜索引擎的行为与其他公司出售联系人的公司更相似，而后者又转给愿意为此付费/询问的任何人。

— 凯文·佩诺

@Kevin我很明白您在说什么，但我认为目前搜索引擎无法完全消除它的作用，您可以期望的最好的办法就是在这种情况下仅列出URL。

— 马修·布鲁克斯

哦，我现在知道了（研究后）。另外，请不要以任何负面观点对我的回答发表我的评论。我希望将您添加到该主题中，我只是在答复中添加实施这种解决方案的弊端，并添加一些我认为不合主题的玩笑。：P

— 凯文·佩诺