Xargs和Wget一小时后停止工作


8

在Windows XP上使用Cygwin在双核和4GB Ram上运行脚本

cat url_list.txt | xargs -P50 wget -i

我正在尝试浏览4GBURL进行下载(大约4300万)

大约一个小时就可以正常工作,然后Bash Shell和下载停止,即使通过URL列表仅获得2%的下载。

有什么想法可能是错的吗?

调试为什么一个小时后停止的最佳方法是什么?

Answers:


2

wget可能会花一些时间来下载一些文件。在它似乎挂起的时间内,内存中是否有wget / xargs进程?如果是这样,是使用-P50标志分配给xargs的全部50个进程,还是它以某种方式爬升到了该数目或小于该数目,并且没有适当地产生新实例?尽管它是在cygwin下运行的,但请查看Windows本身的进程列表,因为每个wget下载都应在任务管理器中启动一个实例。


0

我认为这些URL用于不同的站点。在这种情况下,您可能会遇到响应速度较慢的网站,并且这些网站可能会挂起您的wget之一。由于您有50个运行中的站点,因此您必须先击中50个站点,然后再进行任何操作。

要查看是否是这种情况,请尝试杀死其中一个挂起的wget,然后查看是否将其解开。

要跳过挂起的URL,可以给wget超时:

wget -T 60
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.