Questions tagged «wget»

wget-命令行实用程序,用于非交互式下载内容(可以从脚本,cron作业,不具有X-Windows支持的终端等中调用)

2
在bash脚本中并行运行数千个curl后台进程
我在以下bash脚本中并行运行卷曲背景进程thounsand START=$(date +%s) for i in {1..100000} do curl -s "http://some_url_here/"$i > $i.txt& END=$(date +%s) DIFF=$(( $END - $START )) echo "It took $DIFF seconds" done 我有49Gb Corei7-920专用服务器(非虚拟)。 我通过top命令跟踪内存消耗和CPU ,它们离界限很远。 我ps aux | grep curl | wc -l用来计算当前卷曲过程的数量。这个数字迅速增加到2-4千,然后开始连续下降。 如果我通过管道卷曲到awk(curl | awk > output)添加简单的解析,则卷曲过程数只会增加到1-2千,然后减少到20到30 ... 为什么进程数量如此急剧减少?这种架构的界限在哪里?
14 linux  performance  bash  curl  wget 

2
ssh连接断开后,为什么我的wget没死?
我ssh到服务器上运行wget -r -np zzz.aaa/bbb/ccc,它开始工作。然后我的互联网连接(在我家里)被打断了,我担心那wget是hup因为ssh连接丢失而导致ping 终止了,所以终端已经死了。但是后来我ssh向服务器了解到它仍在运行,并将输出放入wget.log并下载内容。有人可以告诉我这里可能发生了什么吗? 这就是ps给我的: PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND 32283 0.6 29.4 179824 147088 ? S 14:00 1:53 wget -r -np zzz.aaa/bbb/ccc (问号)?在“”列中是tty什么意思?
13 ssh  terminal  wget  signals 

2
使用wget下载时会忽略“其他”域吗?
我想抓取www.website.com/XYZ下的链接,而仅下载www.website.com/ABC下的链接。 我正在使用以下wget命令来获取所需的文件: wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ 当我使用wget 1.13.4时,这完美地工作。但是问题是我必须在具有wget 1.11的服务器上使用此命令,并且当我使用同一命令时,它最终会下载其他域,例如: www.website.de www.website.it ... 如何避免这个问题?我尝试使用 --exclude domains=www.website.de,www.website.it 但是它一直在下载这些域。 还要注意,我无法使用,--no-parent因为我想要的文件位于较高级别(我希望通过抓取website.com/XYZ下的链接来获取website.com/ABC下的文件)。 有什么提示吗?



2
wget的替代品
我在服务器上有一个站点,基本上是一堆HTML页面,图片和声音。 我忘记了该服务器的密码,因此需要获取存储在该服务器上的所有内容。我可以逐页保存所有内容,但该站点有100多个页面。 我正在使用OSX。我尝试使用,wget但我认为服务器阻止了该操作。 我可以使用其他方法来获取该内容吗?
13 wget 

1
如何解决丢失的“最后修改”标题的问题?
我正在这样运行wget: wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main 我收到了很多这样的消息: Last-modified header missing -- time-stamps turned off. 我想这意味着即使我在本地也可以重新下载页面。 注意:我想要这样做,这样我每次运行命令镜像时都不必重新下载现有文件。
13 wget  web 

2
Wget返回二进制而不是HTML?
我正在使用wget下载静态html页面。W3C验证程序告诉我该页面以UTF-8编码。然而,当我下载完文件后,我得到了一堆二进制废话。我在Ubuntu上,我认为默认编码为UTF-8?这就是我的语言环境文件所说的。为什么会发生这种情况,我该如何纠正? 另外,看起来像Content-Encoding: gzip。也许这有所不同? 这是简单的请求: wget https://www.example.com/page.html 我也尝试过这个: wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html 哪个返回: iconv: illegal input sequence at position 40 处理文件将返回类似于以下内容的二进制文件: l�?חu�`�q"�:)s��dġ__��~i��6n)T�$H�#���QJ 结果xxd output.html | head -20: 00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44 ...........VQ..D 00000010: 107e a6bf 62d4 8a1e …

2
Wget:转换链接并避免重新下载已经获取的文件?
我正在下载分散在多个文件中的数据,这些数据一旦发布就不会更改。 因此--timestamping还不够好,因为它一直在检查更改了什么资源,就我而言,这完全没有意义。 --no-clobber非常合适。不幸的是,--convert-links 由于某些原因,它无法正常工作。 --no-clobber和--convert-links均已指定,仅会使用--convert-links。 我希望这--backup-converted会有所帮助,但它什么也没有改变(适用于)--timestamping。 为什么wget --convert-links --backup-converted --no-clobber --wait 1 https://example.com忽略--no-clobber,如何解决?
12 wget  download 

5
将wget或curl的输出写入基于URL的自定义文件名
例如,我有一个链接http://www.abc.com/123/def/ghi/jkl.mno。我想使用wget或下载它,curl并获取输出文件的名称为def_ghi_jkl.mno,其中该部分def_ghi来自链接。 我将把此wget命令放在脚本中以下载多个文件,这样它就不能显式给出输出文件名。
12 filenames  wget  curl 

3
安装保管箱(用于浏览文件)
我希望能够简单地探索一个保管箱文件系统,而不会在CPU,内存和存储上增加太多负载(即,无需在本地保存远程文件的副本)。官方客户端似乎消耗了很多资源(并且会执行不必​​要的操作,例如同步)-http: //www.lowendtalk.com/discussion/3179/dropbox-memory-usage-on-linux。 可以简单地将其安装(比如,用保险丝,并没有在本地复制文件),并与通常的Unix工具探索文件(ls,du,cp)?(我想要对public.me.com类似的东西:-likewget -r或FUSE。) Dropbox-Uploader(使用dropbox API访问它的bash脚本)可以帮助以Unix方式访问dropbox。但是不幸的是,它不支持递归下载目录(如wget -r),这就是为什么我宁愿在其上使用FUSE包装器的原因。

5
如何在收到404后停止“ wget”?
如果您将括号扩展用于wget,则可以轻松获取按顺序编号的图像: $ wget 'http://www.iqandreas.com/sample-images/100-100-color/'{90..110}'.jpg' 它获取编号为第10个文件90.jpg来99.jpg就好了,但是100.jpg,向前返回404:找不到文件错误(我只有在服务器上存储100张图像)。如果您使用较大的范围,这些不存在的文件将更多地成为“问题”,例如{00..200},使用100个不存在的文件,它会增加脚本的执行时间,甚至可能会给您带来轻微的负担(或至少使人烦恼)服务器。 wget收到第一个404错误后,有什么方法可以停止吗?(或者,最好是连续两个,以防由于其他原因导致范围内文件丢失)。答案不需要使用大括号扩展;循环也很好。

2
wget手册页提到的用于阻止“自动检索程序”的“ 2001年文章”是什么?
该wget手册页指出这一点,下的部分--random-wait参数: Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. [...] A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. …

1
Wget,失败或超时后中止重试
我用wget调用网址: /usr/bin/wget --read-timeout=7200 https://site_url/s 在这种情况下,尽管设置了超时,但Wget每15分钟执行一次GET请求,为什么会发生这种情况? 该呼叫只能进行一次,如何将wget设置为NOT Retry? 我知道您可以设置,t=n但0是无限的,而1比我想要的多1。
11 linux  rhel  wget 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.