Questions tagged «wget»

wget-命令行实用程序,用于非交互式下载内容(可以从脚本,cron作业,不具有X-Windows支持的终端等中调用)


4
有没有办法禁止wget从父目录获取文件到给定深度?
wget具有-np禁止从任何父目录获取文件的选项。我需要类似的东西,但要灵活一些。考虑: www.foo.com/bar1/bar2/bar3/index.html 我想得到所有东西,但不是(在树层次结构中)比bar2(!)“更高” 。因此bar2也应该获取而不是获取bar1。 有没有办法使wget更具选择性? 背景:我正在尝试镜像具有类似逻辑结构的网站-起点,然后是向上,然后是向下。如果除之外还有其他工具wget更适合此类布局,请也告知我。 更新资料 或者,而不是指定可能的深度,例如“没有父母,除非他们匹配此URL”。 更新2 服务器上有一些结构,对吗?您可以将其可视化为树。因此,通常使用“ --no-parent”,您会从A点开始,然后一直下降。 我的愿望是向上的能力-可以说,允许向上X个节点,或者(相当于100%)允许向上B个节点(距离BA = X)。 在所有情况下,下降规则都由用户定义(例如,仅下降Y级)。 如何储存?实际上,这并不是真正的问题- wget默认情况下会重新创建服务器结构,这里没有什么可担心的,或者不需要修复任何内容。所以,用2个字-像往常一样。 更新3 下面的目录结构-假设每个目录中R-R.html等只有一个文件。当然,这可以简化,因为您可以拥有多个页面。 R / \ B G / \ C F / \ A D / E A(A.html)是我的起点,X = 2(所以B是我想获取的最顶层节点)。在此特定示例中,这意味着获取除R.html和G.html之外的所有页面。A.html被称为“起点”,因为我必须从它而不是从B开始。 更新4 从更新3开始使用命名。 wget选项www.foo.com/B/C/A/A.html 问题是从目录B和以下目录获取所有页面的选项是什么(知道您必须从A.html开始)。
11 wget  mirror  tree 

5
无法从github wget,sslv3握手错误
我们有一个脚本可以从github下载mod安全,最近开始失败。服务器运行CentOS 6,但RHEL 6可能有相同的问题。输出为: # wget https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz --2014-07-22 18:49:46-- https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving github.com... 192.30.252.129 Connecting to github.com|192.30.252.129|:443... connected. HTTP request sent, awaiting response... 302 Found Location: https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz [following] --2014-07-22 18:49:47-- https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving cloud.github.com... 54.230.99.219, 205.251.219.190, 54.230.97.212, ... Connecting to cloud.github.com|54.230.99.219|:443... connected. OpenSSL: error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure Unable to establish SSL connection. …
10 centos  wget  github 

2
将差异应用到带有补丁的wget源时出现“格式错误的补丁”错误
我想应用此补丁,所以我复制了从“索引:src / options.h”开始并以“ + @ item”结束的代码,并将其放入在wget的源代码文件夹中创建的新文件中。然后我做了: $ patch -p0 < name_of_patch (Patch is indented 1 space.) patching file src/options.h patch: **** malformed patch at line 6: char **excludes; /* List of excluded FTP directories. */ 我应该如何应用呢? 这是我创建的文件的内容: Index: src/options.h =================================================================== --- src/options.h (revision 2276) +++ src/options.h (working copy) @@ -62,6 …
10 wget  patch 

1
在wget中获取md5
我正在存储wget大量文件(超过100GB),然后将md5sum与存储库中发布的总和进行比较。信不信由你,md5sum在这种大小的文件上运行会花费很短的时间,所以我想在下载的同时获得总和。 最好的方法是什么?我没有看到wget在下载过程中计算MD5 的选项(令人惊讶地),所以我想使用tee它将是一种方法?
10 wget  checksum 


3
如何将存储在变量中的参数传递给WGET
我正在编写一个广泛使用wget的bash脚本。为了在一处定义所有通用参数,我将它们存储在变量中。这是一段代码: useragent='--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"' cookies_file="/tmp/wget-cookies.txt" save_cookies_cmd="--save-cookies $cookies_file --keep-session-cookies" load_cookies_cmd="--load-cookies $cookies_file --keep-session-cookies" function mywget { log "#!!!!!!!!!# WGET #!!!!!!!!!# wget $quiet $useragent $load_cookies_cmd $@" wget $useragent $load_cookies_cmd "$@" } 遗憾的是没有工作。不知何故,我缺少将参数存储在变量$ useragent,$ save_cookies_cmd,$ load_cookies_cmd以及将这些var作为参数传递的wget上的正确方法。 我想要这样的结果命令行: wget --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0" --load-cookies /tmp/wget-cookies.txt --keep-session-cookies …

2
用wget下载具有真实名称的文件
我正在尝试使用从Web站点通过HTTP下载文件wget。 当我使用时: wget http://abc/geo/download/?acc=GSE48191&format=file 我只有一个名为的文件index.html?acc=GSE48191。 当我使用时: wget http://abc/geo/download/?acc=GSE48191&format=file -o asd.rpm 我得到了asd.rpm,但是我想使用实际名称下载,并且不想手动更改下载文件的名称。
9 filenames  wget 

3
仅下载源页面的前几个字节
我正在使用cURL命令下载网站的HTML源页面。问题是,我不需要页面中的大多数内容。我只需要源页面的前100行。在头几行之后,有没有办法停止下载该页面? 目前,我正在使用以下命令,但它似乎并不有效。 curl -r[0-1] "http://www.freebase.com/m/045c7b" > foo.txt 我试图改变的价值1,以.5和.05,目前仍是整个网页是越来越下载。 我正在等待不到一秒钟的时间来执行上述命令。 编辑 从的手册页中cURL,我看到“ 您还应该知道许多HTTP / 1.1服务器没有启用此功能,因此当您尝试获取范围时,您将获得整个文档。 ”服务器不支持范围查询,nix环境中是否还有其他命令可以帮助我完成尝试做的事情?
9 wget  curl 


3
wget不支持https
我想https://example.com使用该wget命令进行下载,但是它显示为“不支持/无法识别的协议”。我尝试使用,--secure protocol=''但这不起作用。我从GNU wget下载了tar文件,并尝试配置它,但失败了。 这是我所看到的示例: bash-2.05$ wget https://www.facebook.com/ https://www.facebook.com/: Unknown/unsupported protocol. bash-2.05$ 大家好,谢谢您的回答,我的wget的验证版本如下所示 bash-2.05$ wget -V GNU Wget 1.6 Copyright (C) 1995, 1996, 1997, 1998, 2000 Free Software Foundation, Inc. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty …
9 wget  https 


2
告诉wget不匹配模式的Spider URL?
我想测试我的网站在被抓取时的行为。但是,我想排除所有包含单词“ page”的URL。我试过了: $ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/ 该-R标志应该拒绝包含单词“ page”的URL模式。除了它似乎不起作用: Spider mode enabled. Check if remote file exists. --2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729 Reusing existing connection to [mysite.com]:80. HTTP request sent, awaiting response... 200 OK 如何排除此类网址的爬虫?
8 wget  url 

5
Bash:从URL确定图像尺寸的最快方法
我试图找出一种确定图像尺寸的快速方法。 我知道我可以获取图像,然后使用imagemagick确定图像的高度和宽度。我担心这可能不是最快的方法。 当我只需要很小的功能子集时,我还担心必须安装imagemagick。我在资源(CPU,RAM,存储)非常有限的嵌入式系统上。 有任何想法吗?

2
除了SeleniumRC之外,还有没有其他好的工具可以提取包含JavaScript后绘制内容的网页?
一个主要的缺点curl是,越来越多的网页的主要内容是由在初始HTTP响应之后发生的JavaScript AJAX响应绘制的。curl永远不会选择此后涂内容。 因此,为了从命令行获取这些类型的网页,我被简化为用Ruby编写脚本,这些脚本驱动SeleniumRC启动Firefox实例,然后在这些AJAX调用完成后返回源HTML。 对于此类问题,使用精简的命令行解决方案会更好。有人知道吗?
8 wget  http  html  curl  selenium 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.