Unix & Linux wget

2

我在以下bash脚本中并行运行卷曲背景进程thounsand START=$(date +%s) for i in {1..100000} do curl -s "http://some_url_here/"$i > $i.txt& END=$(date +%s) DIFF=$(( $END - $START )) echo "It took $DIFF seconds" done 我有49Gb Corei7-920专用服务器（非虚拟）。我通过top命令跟踪内存消耗和CPU ，它们离界限很远。我ps aux | grep curl | wc -l用来计算当前卷曲过程的数量。这个数字迅速增加到2-4千，然后开始连续下降。如果我通过管道卷曲到awk（curl | awk > output）添加简单的解析，则卷曲过程数只会增加到1-2千，然后减少到20到30 ... 为什么进程数量如此急剧减少？这种架构的界限在哪里？

14 linux performance bash curl wget

2

ssh连接断开后，为什么我的wget没死？

我ssh到服务器上运行wget -r -np zzz.aaa/bbb/ccc，它开始工作。然后我的互联网连接（在我家里）被打断了，我担心那wget是hup因为ssh连接丢失而导致ping 终止了，所以终端已经死了。但是后来我ssh向服务器了解到它仍在运行，并将输出放入wget.log并下载内容。有人可以告诉我这里可能发生了什么吗？这就是ps给我的： PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND 32283 0.6 29.4 179824 147088 ? S 14:00 1:53 wget -r -np zzz.aaa/bbb/ccc （问号）?在“”列中是tty什么意思？

13 ssh terminal wget signals

2

使用wget下载时会忽略“其他”域吗？

我想抓取www.website.com/XYZ下的链接，而仅下载www.website.com/ABC下的链接。我正在使用以下wget命令来获取所需的文件： wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ 当我使用wget 1.13.4时，这完美地工作。但是问题是我必须在具有wget 1.11的服务器上使用此命令，并且当我使用同一命令时，它最终会下载其他域，例如： www.website.de www.website.it ... 如何避免这个问题？我尝试使用 --exclude domains=www.website.de,www.website.it 但是它一直在下载这些域。还要注意，我无法使用，--no-parent因为我想要的文件位于较高级别（我希望通过抓取website.com/XYZ下的链接来获取website.com/ABC下的文件）。有什么提示吗？

13 command-line wget

4

如何限制wget中下载的文件大小？

我想使用wget（从php脚本中）下载图像文件，但不想下载超过一定大小的文件。我可以限制文件大小wget吗？如果没有，还有什么更好的方法？

13 files wget size

2

是否有命令行方法可以用来检查下载的文件是否完整或损坏？

我正在编写一个涉及下载和处理文件的脚本，并且我想确保在处理该文件之前该文件不是不完整的（例如由于连接断开）。

13 files wget curl download corruption

2

wget的替代品

我在服务器上有一个站点，基本上是一堆HTML页面，图片和声音。我忘记了该服务器的密码，因此需要获取存储在该服务器上的所有内容。我可以逐页保存所有内容，但该站点有100多个页面。我正在使用OSX。我尝试使用，wget但我认为服务器阻止了该操作。我可以使用其他方法来获取该内容吗？

13 wget

1

如何解决丢失的“最后修改”标题的问题？

我正在这样运行wget： wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main 我收到了很多这样的消息： Last-modified header missing -- time-stamps turned off. 我想这意味着即使我在本地也可以重新下载页面。注意：我想要这样做，这样我每次运行命令镜像时都不必重新下载现有文件。

13 wget web

2

Wget返回二进制而不是HTML？

我正在使用wget下载静态html页面。W3C验证程序告诉我该页面以UTF-8编码。然而，当我下载完文件后，我得到了一堆二进制废话。我在Ubuntu上，我认为默认编码为UTF-8？这就是我的语言环境文件所说的。为什么会发生这种情况，我该如何纠正？另外，看起来像Content-Encoding: gzip。也许这有所不同？这是简单的请求： wget https://www.example.com/page.html 我也尝试过这个： wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html 哪个返回： iconv: illegal input sequence at position 40 处理文件将返回类似于以下内容的二进制文件： l�?חu�`�q"�:)s��dġ__��~i��6n)T�$H�#��QJ 结果xxd output.html | head -20： 00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44 ...........VQ..D 00000010: 107e a6bf 62d4 8a1e …

12 wget character-encoding gzip http

2

Wget：转换链接并避免重新下载已经获取的文件？

我正在下载分散在多个文件中的数据，这些数据一旦发布就不会更改。因此--timestamping还不够好，因为它一直在检查更改了什么资源，就我而言，这完全没有意义。 --no-clobber非常合适。不幸的是，--convert-links 由于某些原因，它无法正常工作。 --no-clobber和--convert-links均已指定，仅会使用--convert-links。我希望这--backup-converted会有所帮助，但它什么也没有改变（适用于）--timestamping。为什么wget --convert-links --backup-converted --no-clobber --wait 1 https://example.com忽略--no-clobber，如何解决？

12 wget download

5

将wget或curl的输出写入基于URL的自定义文件名

例如，我有一个链接http://www.abc.com/123/def/ghi/jkl.mno。我想使用wget或下载它，curl并获取输出文件的名称为def_ghi_jkl.mno，其中该部分def_ghi来自链接。我将把此wget命令放在脚本中以下载多个文件，这样它就不能显式给出输出文件名。

12 filenames wget curl

3

安装保管箱（用于浏览文件）

我希望能够简单地探索一个保管箱文件系统，而不会在CPU，内存和存储上增加太多负载（即，无需在本地保存远程文件的副本）。官方客户端似乎消耗了很多资源（并且会执行不必要的操作，例如同步）-http: //www.lowendtalk.com/discussion/3179/dropbox-memory-usage-on-linux。可以简单地将其安装（比如，用保险丝，并没有在本地复制文件），并与通常的Unix工具探索文件（ls，du，cp）？（我想要对public.me.com类似的东西：-likewget -r或FUSE。） Dropbox-Uploader（使用dropbox API访问它的bash脚本）可以帮助以Unix方式访问dropbox。但是不幸的是，它不支持递归下载目录（如wget -r），这就是为什么我宁愿在其上使用FUSE包装器的原因。

12 wget fuse dropbox hosting-services protocols

5

如何在收到404后停止“ wget”？

如果您将括号扩展用于wget，则可以轻松获取按顺序编号的图像： $ wget 'http://www.iqandreas.com/sample-images/100-100-color/'{90..110}'.jpg' 它获取编号为第10个文件90.jpg来99.jpg就好了，但是100.jpg，向前返回404：找不到文件错误（我只有在服务器上存储100张图像）。如果您使用较大的范围，这些不存在的文件将更多地成为“问题”，例如{00..200}，使用100个不存在的文件，它会增加脚本的执行时间，甚至可能会给您带来轻微的负担（或至少使人烦恼）服务器。 wget收到第一个404错误后，有什么方法可以停止吗？（或者，最好是连续两个，以防由于其他原因导致范围内文件丢失）。答案不需要使用大括号扩展；循环也很好。

12 bash shell-script wget

2

wget手册页提到的用于阻止“自动检索程序”的“ 2001年文章”是什么？

该wget手册页指出这一点，下的部分--random-wait参数： Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. [...] A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. …

11 wget man documentation

1

Wget，失败或超时后中止重试

我用wget调用网址： /usr/bin/wget --read-timeout=7200 https://site_url/s 在这种情况下，尽管设置了超时，但Wget每15分钟执行一次GET请求，为什么会发生这种情况？该呼叫只能进行一次，如何将wget设置为NOT Retry？我知道您可以设置，t=n但0是无限的，而1比我想要的多1。

11 linux rhel wget

3

如何使用wget从托管站点下载？

wget是一个非常有用的工具，可以在Internet上快速下载内容，但是我可以使用它从托管网站下载，例如FreakShare，IFile.it Depositfiles，Uploaded，Rapidshare吗？如果是这样，我该怎么做？

11 wget download hosting-services

Questions tagged «wget»