我应该在robots.txt中阻止哪些漫游器和爬虫?


Answers:


17

没有任何一个正在收集电子邮件或测试您的网站是否存在漏洞的漫游器会尊重您的robots.txt。实际上,这些恶意机器人会查看robots.txt来更好地映射您的网站。如果您有任何观点,Disallow:这将被用来更好地攻击您的网站。手动查看您的站点的黑客应花更多的时间检查您尝试禁止的任何文件/目录。


3
有趣的一点。我不知道将一个伪造页面添加到“禁止”列表是否有意义,其唯一目的是捕获此类机器人,使其能够被自动阻止。
史蒂文·苏迪特

5
@Steven Sudit这不是一个坏主意。这将被称为蜜罐。
鲁克

是的,这是完全正确的,尽管我考虑的是目录编译器(电话簿等)的标准技巧,即添加少量假条目以检测大量盗窃。
史蒂文·苏迪特

如果您还使用该蜜罐作为tarpit,也会使illegit indexer感到不满。这实际上对垃圾邮件发送者来说很常见-留下一个可蜜罐索引的电子邮件地址,该地址可通往tarpit电子邮件服务器。
马克·亨德森

@Farseeker我认为惩罚那些违反规则的人没有问题。尽管用不良数据欺骗垃圾邮件制造者是一个有趣的转折。
鲁克

4

robots.txt不会提高您网站的安全性或阻止电子邮件地址的获取。robots.txt是搜索引擎的指南,可跳过您网站的各个部分。这些不会被索引,应该用于您不想在公共搜索引擎中显示的任何部分。

但是,这绝不会阻止任何其他漫游器下载您的整个站点以提高安全性或阻止电子邮件的收集。为了提高安全性,您需要添加身份验证,并且只允许经过安全保护的部分之外的经过身份验证的用户。为了防止收集电子邮件地址,请不要在网站上以纯文本(或易于解密的文本)形式放置电子邮件。


1

robots.txt不会帮助您提高安全性。任何想要做一些黑幕的机器人都将忽略它。


0

robots.txt文件仅用于要求漫游器和Spider保留某些内容;它实际上无法阻止他们的访问。“好”机器人会尊重它,但是“坏”机器人(可能是您要阻止的机器人)将忽略它并继续进行。


-1

您可能需要使用验证码来代替robots.txt。


CAPTCHA代码与网络搜寻器无关(robots.txt地址就是此地址)。
user48838 2010年

那是一次错误的投票。整个观点是,搜寻器可以忽略robots.txt,但是,如果没有完全阻止,则验证码将至少减慢它的速度。谢谢你错了。
史蒂文·苏迪特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.