哪些机器人真正值得进入网站?


11

编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站?

我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?


1
+1:好问题;但是很难回答您的问题,因为机器人很多。
Zistoloen

@Zistoloen:是的,我知道这是一个难题。实际上,我问的原因是因为据我所知,一个非主流搜索引擎索引了数十亿个页面,他们抱怨说由于站点试图阻止非主流搜索引擎,它们无法访问大量的Web。
失误2014年


@blunders感谢您抽出宝贵的时间。如果我能够解析这个问题,我自己会编辑的:)
DisgruntledGoat 2014年

@DisgruntledGoat:没问题,谢谢您的编辑!
失误

Answers:


11

在普通机器人的范围内,这完全取决于您所欣赏的东西,只有您自己才能决定。当然有Google,Bing / MSN / Yahoo !、百度和Yandex。这些是主要的搜索引擎。也有各种SEO和反向链接站点。对与错,我允许几个大型网站访问我的网站,但总的来说,它们是无用的网站。我不仅在robots.txt中,而且在域名和IP地址中都封存archive.org。这是因为他们很不理会robots.txt!这是您需要体会的东西。不要被代理人的名字所欺骗。通常他们是由坏人伪造的。如今,我从声称是百度的来源获得了数千个页面请求,但事实并非如此。通过域名和IP地址块了解这些蜘蛛,并在该级别上学习如何处理它们。好的服从robots.txt。

但我必须警告您,有大量的隐身机器人,流氓机器人,刮板等,您将需要经常搜索日志分析并进行阻止。这个5uck5!但是必须这样做。如今,它们面临的最大威胁是指向您网站的低质量链接。我今年实施的最新反机器人安全代码已自动删除了7700个低质量链接。当然,我的代码仍然需要工作,但是您明白了。不良的漫游器仍会窃取网站潜力。

不久之后,您就可以掌握它了。


1

在搜索引擎几乎没有发送流量的情况下,我遇到了百度bot降低我的服务器速度的问题。这些漫游器不尊重robots.txt文件,因此要阻止百度漫游器,只需将以下内容粘贴到您的htccess文件中即可。

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

我也遇到了Bing / Microsoft蜘蛛抓取速度过快的问题,与百度不同,它们确实尊重robots.txt文件;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.