哪些机器人真正值得进入网站？

编写了许多机器人程序，并看到大量随机机器人程序在爬网时，我想知道作为网站管理员，究竟有什么机器人程序值得让您进入网站？

我首先想到的是，允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点，您如何发现这些“好”机器人？

— 失误
source

+1：好问题；但是很难回答您的问题，因为机器人很多。

— Zistoloen

@Zistoloen：是的，我知道这是一个难题。实际上，我问的原因是因为据我所知，一个非主流搜索引擎索引了数十亿个页面，他们抱怨说由于站点试图阻止非主流搜索引擎，它们无法访问大量的Web。

— 失误2014年

相关：en.wikipedia.org/wiki/Spider_trap

— Mooing Duck

@blunders感谢您抽出宝贵的时间。如果我能够解析这个问题，我自己会编辑的：）

— DisgruntledGoat 2014年

@DisgruntledGoat：没问题，谢谢您的编辑！

— 失误

Answers:

在普通机器人的范围内，这完全取决于您所欣赏的东西，只有您自己才能决定。当然有Google，Bing / MSN / Yahoo !、百度和Yandex。这些是主要的搜索引擎。也有各种SEO和反向链接站点。对与错，我允许几个大型网站访问我的网站，但总的来说，它们是无用的网站。我不仅在robots.txt中，而且在域名和IP地址中都封存archive.org。这是因为他们很不理会robots.txt！这是您需要体会的东西。不要被代理人的名字所欺骗。通常他们是由坏人伪造的。如今，我从声称是百度的来源获得了数千个页面请求，但事实并非如此。通过域名和IP地址块了解这些蜘蛛，并在该级别上学习如何处理它们。好的服从robots.txt。

但我必须警告您，有大量的隐身机器人，流氓机器人，刮板等，您将需要经常搜索日志分析并进行阻止。这个5uck5！但是必须这样做。如今，它们面临的最大威胁是指向您网站的低质量链接。我今年实施的最新反机器人安全代码已自动删除了7700个低质量链接。当然，我的代码仍然需要工作，但是您明白了。不良的漫游器仍会窃取网站潜力。

不久之后，您就可以掌握它了。

— 壁橱
source

在搜索引擎几乎没有发送流量的情况下，我遇到了百度bot降低我的服务器速度的问题。这些漫游器不尊重robots.txt文件，因此要阻止百度漫游器，只需将以下内容粘贴到您的htccess文件中即可。

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

我也遇到了Bing / Microsoft蜘蛛抓取速度过快的问题，与百度不同，它们确实尊重robots.txt文件；

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1

— 乔利
source