Answers:
根据位于http://www.useragentstring.com/pages/useragentstring.php?typ=Browser的列表,其中包含来自各种浏览器的9000多个用户代理字符串:
(包含“抓取”的2如下:“ Mozilla / 4.0(兼容; MSIE 5.01; Windows NT 5.0; YComp 5.0.2.6; MSIECrawler)”和“ Mozilla / 4.0(兼容; MSIE 5.01; Windows NT 5.0; MSIECrawler) )”我认为不考虑这些是安全的。)
根据http://www.useragentstring.com/pages/useragentstring.php?typ=Crawler的列表,其中有442个用户代理字符串被列为bot:
我的结论是:通过用户代理字符串(包括“ bot”,“ crawl”和“ spider”)过滤bot是安全的。它不是防弹的,但绝对总比没有好。
注意:在搜索关键字时,我使用了不区分大小写的搜索。
来自Stack Overflow的此问题应有帮助:“ 是否存在在线用户代理数据库? ”
您可以快速扫描数据库,然后找出(或导入)数据库。
bot
,crawl
,spider
,甚至search
。