10
需要阻止机器人杀死我的Web服务器
我的托管帐户中的某些网站上存在EXTREME机器人问题。僵尸程序占用了我整个托管帐户超过98%的CPU资源和99%的带宽。这些漫游器每小时为我的网站产生超过1 GB的流量。所有这些站点的实际人流量都不超过100 MB /月。 我已经对robots.txt和.htaccess文件进行了广泛的研究,以阻止这些bot,但是所有方法均失败了。 我也将代码放在robots.txt文件中,以阻止对脚本目录的访问,但是这些漫游器(Google,MS Bing和Yahoo)会忽略规则并始终运行脚本。 我不想完全阻止Google,MS Bing和Yahoo僵尸程序,但我想限制那里的爬网率。另外,在robots.txt文件中添加抓取延迟语句不会降低机器人的速度。下面列出了我当前用于所有网站的robots.txt和.htacces代码。 我已经设置了Microsoft和Google网站管理员工具,以将抓取速度降低到绝对最小值,但是它们仍然以10次点击/秒的速度访问这些网站。 此外,每次我上载导致错误的文件时,整个VPS网络服务器都将在几秒钟内关闭,以至于由于这些bot的点击量激增,我什至无法访问该网站纠正此问题。 我该怎么做才能阻止网站流量的出现? 在过去的几个月中,我多次尝试向我的网络托管公司(site5.com)询问此问题,他们无法帮助我解决此问题。 我真正需要的是阻止Bots运行rss2html.php脚本。我尝试了会话和Cookie,但都失败了。 robots.txt User-agent: Mediapartners-Google Disallow: User-agent: Googlebot Disallow: User-agent: Adsbot-Google Disallow: User-agent: Googlebot-Image Disallow: User-agent: Googlebot-Mobile Disallow: User-agent: MSNBot Disallow: User-agent: bingbot Disallow: User-agent: Slurp Disallow: User-Agent: Yahoo! Slurp Disallow: # Directories User-agent: * Disallow: / Disallow: …