我想测试我的网站在被抓取时的行为。但是,我想排除所有包含单词“ page”的URL。我试过了:
$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/
该-R
标志应该拒绝包含单词“ page”的URL模式。除了它似乎不起作用:
Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK
如何排除此类网址的爬虫?