Answers:
如果服务器正在阻止wget,则很可能是基于http头的“ User-agent:”字段来执行此操作,因为这是服务器首先知道的唯一方法。这也可能会阻塞您的IP,在这种情况下,使用其他软件将无济于事,或者某种方案会根据一组请求的速度来识别自动化(因为真实的人不会在3.2秒内浏览100页) 。我没有听说有人这样做,但是有可能。
我也没有听说过减慢wget速度的方法,但是有一种欺骗用户代理字段的方法:
wget --user-agent=""
由于不是强制性的,因此将根据手册页完全删除“ User-agent:”。如果服务器不喜欢这样,请尝试使用--user-agent="Mozilla/5.0"
该服务器就足够了。
当然,如果您更好地解释了为什么“认为服务器阻止了它”,这将有所帮助。wget会说什么还是只是超时?
wget
有很多选项可以在两次查询之间等待,限制速率或下载量。检查info
页面以获取详细信息。
我通常httrack
用于从站点下载/镜像Web内容。
$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0
运行后,您将获得本地和可浏览的目录结构。例如:
$ ls -l
total 304
-rw-r--r-- 1 saml saml 4243 Aug 17 10:20 backblue.gif
-rw-r--r-- 1 saml saml 828 Aug 17 10:20 fade.gif
drwx------ 3 saml saml 4096 Aug 17 10:20 hts-cache
-rw-rw-r-- 1 saml saml 233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r-- 1 saml saml 1517 Aug 17 10:20 hts-log.txt
-rw------- 1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r-- 1 saml saml 5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml 4096 Aug 17 10:21 2011.example.com
下载时,您会看到以下类型的输出:
Bytes saved: 21,89KiB Links scanned: 12/45 (+4)
Time: 2s Files written: 4
Transfer rate: 2,65KiB/s (2,65KiB/s) Files updated: 1
Active connections: 1 Errors: 7
Current job: parsing HTML file (57%)
request - 2011.example.com/cgi-bin/hostnames.pl 0B / 8,00KiB
它可以在后台和/或中止,然后再恢复。就其功能而言,这只是冰山一角。还有一个GUI可用于设置下载并在下载过程中对其进行监视。
httrack
网站上和通过谷歌搜索有大量文档。