编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站?
我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?
编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站?
我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?
Answers:
在普通机器人的范围内,这完全取决于您所欣赏的东西,只有您自己才能决定。当然有Google,Bing / MSN / Yahoo !、百度和Yandex。这些是主要的搜索引擎。也有各种SEO和反向链接站点。对与错,我允许几个大型网站访问我的网站,但总的来说,它们是无用的网站。我不仅在robots.txt中,而且在域名和IP地址中都封存archive.org。这是因为他们很不理会robots.txt!这是您需要体会的东西。不要被代理人的名字所欺骗。通常他们是由坏人伪造的。如今,我从声称是百度的来源获得了数千个页面请求,但事实并非如此。通过域名和IP地址块了解这些蜘蛛,并在该级别上学习如何处理它们。好的服从robots.txt。
但我必须警告您,有大量的隐身机器人,流氓机器人,刮板等,您将需要经常搜索日志分析并进行阻止。这个5uck5!但是必须这样做。如今,它们面临的最大威胁是指向您网站的低质量链接。我今年实施的最新反机器人安全代码已自动删除了7700个低质量链接。当然,我的代码仍然需要工作,但是您明白了。不良的漫游器仍会窃取网站潜力。
不久之后,您就可以掌握它了。
在搜索引擎几乎没有发送流量的情况下,我遇到了百度bot降低我的服务器速度的问题。这些漫游器不尊重robots.txt文件,因此要阻止百度漫游器,只需将以下内容粘贴到您的htccess文件中即可。
# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)
# IP range
# 180.76
RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]
我也遇到了Bing / Microsoft蜘蛛抓取速度过快的问题,与百度不同,它们确实尊重robots.txt文件;
User-agent: bingbot
Crawl-delay: 1
User-agent: msnbot
Crawl-delay: 1