我的网站上有一些网页想要与搜索引擎保持距离,因此我在robots.txt
文件中禁止这样的网页:
User-Agent: *
Disallow: /email
但是我最近注意到,Google有时仍会在搜索结果中返回指向这些页面的链接。为什么会发生这种情况,我该如何制止呢?
背景:
几年前,我为一个我的亲戚所涉及的俱乐部制作了一个简单的网站。他们想在其页面上添加电子邮件链接,因此,试图防止这些电子邮件地址以过多的形式出现垃圾邮件列表,不是使用直接mailto:
链接,而是使这些链接指向在我自己的站点上运行的简单重定向器/ 地址收集器陷阱脚本。该脚本将返回到实际mailto:
URL 的301重定向,或者,如果它检测到可疑的访问模式,则返回一个页面,该页面包含许多随机的虚假电子邮件地址以及指向更多此类页面的链接。为了使合法的搜索机器人远离陷阱,我设置了robots.txt
上面显示的规则,不允许使用合法重定向程序链接和陷阱页面的全部空间。
然而,就在最近,该俱乐部中的一个人在Google上搜索了自己的名字,当第一页上的一个结果是指向重定向脚本的链接时,感到很惊讶,其标题由电子邮件地址组成以我的名字 当然,他们立即向我发送电子邮件,并想知道如何从Google的索引中删除其地址。我也很惊讶,因为我根本不知道Google会完全索引这样的URL,这似乎违反了我的robots.txt
规则。
我确实向Google提交了删除请求,该请求似乎奏效了,但我想知道Google为什么和如何绕开我的robots.txt
请求,以及如何确保不允许的页面不会显示在他们的网站上搜索结果。
附言 实际上,在准备此问题时,我实际上找到了可能的解释和解决方案,我将在下面发布该解释和解决方案,但是我认为无论如何,如果有人可能遇到相同的问题,我还是会提出来。请随时发布您自己的答案。我也想知道其他搜索引擎是否也这样做,以及相同的解决方案是否也适用于他们。
robots.txt
文件就像某人车道旁的小“禁止擅自进入”标志。这不是魔术,并且(除非有访客明确要求,否则)他们可以漫步到您的住所而不会受到其存在的轻微影响。互联网上有与之类似的泛光灯和剃须刀围栏,但如果您想要的robots.txt
是不是。