Unix & Linux wget

2

如果我有一个以分隔的URL列表\n，是否可以传递任何选项wget来下载所有URL并将其保存到当前目录，但前提是文件不存在？

11 wget download options

4

wget具有-np禁止从任何父目录获取文件的选项。我需要类似的东西，但要灵活一些。考虑： www.foo.com/bar1/bar2/bar3/index.html 我想得到所有东西，但不是（在树层次结构中）比bar2（！）“更高” 。因此bar2也应该获取而不是获取bar1。有没有办法使wget更具选择性？背景：我正在尝试镜像具有类似逻辑结构的网站-起点，然后是向上，然后是向下。如果除之外还有其他工具wget更适合此类布局，请也告知我。更新资料或者，而不是指定可能的深度，例如“没有父母，除非他们匹配此URL”。更新2 服务器上有一些结构，对吗？您可以将其可视化为树。因此，通常使用“ --no-parent”，您会从A点开始，然后一直下降。我的愿望是向上的能力-可以说，允许向上X个节点，或者（相当于100％）允许向上B个节点（距离BA = X）。在所有情况下，下降规则都由用户定义（例如，仅下降Y级）。如何储存？实际上，这并不是真正的问题- wget默认情况下会重新创建服务器结构，这里没有什么可担心的，或者不需要修复任何内容。所以，用2个字-像往常一样。更新3 下面的目录结构-假设每个目录中R-R.html等只有一个文件。当然，这可以简化，因为您可以拥有多个页面。 R / \ B G / \ C F / \ A D / E A（A.html）是我的起点，X = 2（所以B是我想获取的最顶层节点）。在此特定示例中，这意味着获取除R.html和G.html之外的所有页面。A.html被称为“起点”，因为我必须从它而不是从B开始。更新4 从更新3开始使用命名。 wget选项www.foo.com/B/C/A/A.html 问题是从目录B和以下目录获取所有页面的选项是什么（知道您必须从A.html开始）。

11 wget mirror tree

5

无法从github wget，sslv3握手错误

我们有一个脚本可以从github下载mod安全，最近开始失败。服务器运行CentOS 6，但RHEL 6可能有相同的问题。输出为： # wget https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz --2014-07-22 18:49:46-- https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving github.com... 192.30.252.129 Connecting to github.com|192.30.252.129|:443... connected. HTTP request sent, awaiting response... 302 Found Location: https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz [following] --2014-07-22 18:49:47-- https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving cloud.github.com... 54.230.99.219, 205.251.219.190, 54.230.97.212, ... Connecting to cloud.github.com|54.230.99.219|:443... connected. OpenSSL: error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure Unable to establish SSL connection. …

10 centos wget github

2

将差异应用到带有补丁的wget源时出现“格式错误的补丁”错误

我想应用此补丁，所以我复制了从“索引：src / options.h”开始并以“ + @ item”结束的代码，并将其放入在wget的源代码文件夹中创建的新文件中。然后我做了： $ patch -p0 < name_of_patch (Patch is indented 1 space.) patching file src/options.h patch: **** malformed patch at line 6: char **excludes; /* List of excluded FTP directories. */ 我应该如何应用呢？这是我创建的文件的内容： Index: src/options.h =================================================================== --- src/options.h (revision 2276) +++ src/options.h (working copy) @@ -62,6 …

10 wget patch

1

在wget中获取md5

我正在存储wget大量文件（超过100GB），然后将md5sum与存储库中发布的总和进行比较。信不信由你，md5sum在这种大小的文件上运行会花费很短的时间，所以我想在下载的同时获得总和。最好的方法是什么？我没有看到wget在下载过程中计算MD5 的选项（令人惊讶地），所以我想使用tee它将是一种方法？

10 wget checksum

1

如何为wget设置目标文件夹？

我很新wget。我只需要知道如何设置保存下载的目标文件夹即可。我相信是--directory-prefix。谢谢，

10 wget

3

如何将存储在变量中的参数传递给WGET

我正在编写一个广泛使用wget的bash脚本。为了在一处定义所有通用参数，我将它们存储在变量中。这是一段代码： useragent='--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"' cookies_file="/tmp/wget-cookies.txt" save_cookies_cmd="--save-cookies $cookies_file --keep-session-cookies" load_cookies_cmd="--load-cookies $cookies_file --keep-session-cookies" function mywget { log "#!!!!!!!!!# WGET #!!!!!!!!!# wget $quiet $useragent $load_cookies_cmd $@" wget $useragent $load_cookies_cmd "$@" } 遗憾的是没有工作。不知何故，我缺少将参数存储在变量$ useragent，$ save_cookies_cmd，$ load_cookies_cmd以及将这些var作为参数传递的wget上的正确方法。我想要这样的结果命令行： wget --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0" --load-cookies /tmp/wget-cookies.txt --keep-session-cookies …

10 bash wget variable-substitution

2

用wget下载具有真实名称的文件

我正在尝试使用从Web站点通过HTTP下载文件wget。当我使用时： wget http://abc/geo/download/?acc=GSE48191&format=file 我只有一个名为的文件index.html?acc=GSE48191。当我使用时： wget http://abc/geo/download/?acc=GSE48191&format=file -o asd.rpm 我得到了asd.rpm，但是我想使用实际名称下载，并且不想手动更改下载文件的名称。

9 filenames wget

3

仅下载源页面的前几个字节

我正在使用cURL命令下载网站的HTML源页面。问题是，我不需要页面中的大多数内容。我只需要源页面的前100行。在头几行之后，有没有办法停止下载该页面？目前，我正在使用以下命令，但它似乎并不有效。 curl -r[0-1] "http://www.freebase.com/m/045c7b" > foo.txt 我试图改变的价值1，以.5和.05，目前仍是整个网页是越来越下载。我正在等待不到一秒钟的时间来执行上述命令。编辑从的手册页中cURL，我看到“ 您还应该知道许多HTTP / 1.1服务器没有启用此功能，因此当您尝试获取范围时，您将获得整个文档。 ”服务器不支持范围查询，nix环境中是否还有其他命令可以帮助我完成尝试做的事情？

9 wget curl

7

有没有一种交互式使用curl的方法？还是有一个互动的curl / wget外壳？

想象这样的事情： $ curlsh http://www.example.org > GET /foo/bar/bam ...output here... > POST /thing/pool ... ... result here.... 有没有可以让我做到这一点的工具？

9 wget curl

3

wget不支持https

我想https://example.com使用该wget命令进行下载，但是它显示为“不支持/无法识别的协议”。我尝试使用，--secure protocol=''但这不起作用。我从GNU wget下载了tar文件，并尝试配置它，但失败了。这是我所看到的示例： bash-2.05$ wget https://www.facebook.com/ https://www.facebook.com/: Unknown/unsupported protocol. bash-2.05$ 大家好，谢谢您的回答，我的wget的验证版本如下所示 bash-2.05$ wget -V GNU Wget 1.6 Copyright (C) 1995, 1996, 1997, 1998, 2000 Free Software Foundation, Inc. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty …

9 wget https

4

为什么在后台执行“ wget”作业时为什么看不到它？

我wget像这样在后台使用命令 wget -bq 它打印继续在后台进行，pid 31754。但是，当我键入命令时jobs，我看不到我的工作（尽管下载尚未完成）。

8 command-line wget background-process job-control

2

告诉wget不匹配模式的Spider URL？

我想测试我的网站在被抓取时的行为。但是，我想排除所有包含单词“ page”的URL。我试过了： $ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/ 该-R标志应该拒绝包含单词“ page”的URL模式。除了它似乎不起作用： Spider mode enabled. Check if remote file exists. --2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729 Reusing existing connection to [mysite.com]:80. HTTP request sent, awaiting response... 200 OK 如何排除此类网址的爬虫？

8 wget url

5

Bash：从URL确定图像尺寸的最快方法

我试图找出一种确定图像尺寸的快速方法。我知道我可以获取图像，然后使用imagemagick确定图像的高度和宽度。我担心这可能不是最快的方法。当我只需要很小的功能子集时，我还担心必须安装imagemagick。我在资源（CPU，RAM，存储）非常有限的嵌入式系统上。有任何想法吗？

8 bash wget imagemagick

2

除了SeleniumRC之外，还有没有其他好的工具可以提取包含JavaScript后绘制内容的网页？

一个主要的缺点curl是，越来越多的网页的主要内容是由在初始HTTP响应之后发生的JavaScript AJAX响应绘制的。curl永远不会选择此后涂内容。因此，为了从命令行获取这些类型的网页，我被简化为用Ruby编写脚本，这些脚本驱动SeleniumRC启动Firefox实例，然后在这些AJAX调用完成后返回源HTML。对于此类问题，使用精简的命令行解决方案会更好。有人知道吗？

8 wget http html curl selenium

Questions tagged «wget»