Questions tagged «wget»

GNU Wget是一个免费软件包,可使用HTTP,HTTPS和FTP(最广泛使用的Internet协议)检索文件。它是一种非交互式命令行工具,因此可以轻松地从脚本,Cron作业,不支持X Window System(X11)的终端等中调用它。

6
使用wget或httrack镜像已归档网站时遇到问题
我正在尝试使用wget创建网站的本地镜像。但是我发现我没有得到所有的链接页面。 这是网站 http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ 我不想所有的开头的页面web.archive.org,但我确实希望所有的开头的页面http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/。 当我使用时wget -r,在文件结构中我发现 web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, 但我没有该数据库中的所有文件,例如 web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html. 也许httrack会做得更好,但是现在这太抢手了。 因此,通过哪种方法可以从Internet Archive Wayback Machine上获取已存档网站的本地副本?

2
可以进行wget空运行吗?
我知道您可以使用递归下载网页wget,但是可以进行试运行吗?这样您就可以进行测试以查看如果实际下载了多少文件?考虑具有大量指向媒体文件(例如图像,音频或电影文件)链接的页面。
12 wget 


2
如何:在指定的时间间隔内从Wayback Machine下载页面
我的意思是在指定的时间段和间隔内从Wayback Machine下载可用的每个页面。例如,我想从2012年1月到2012年12月每天从nature.com下载可用的每个页面。(这不完全是我想要做的,但是已经足够接近了-并提供了一个很好的示例。) 不幸的是,由于Wayback机器的独特工作原理,wget无法正常工作。 似乎Wayback Machine下载器之类的工具只能下载该页面的最新版本。 与IA API进行交互似乎是一条可行的路线,但是我不确定这将如何工作。 谢谢!
11 download  wget  webpage 

3
如何在Windows下为wget设置http代理地址?
如果没有参数运行我的wget打印: D:\>wget SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:/progra~1/wget/etc/wgetrc D:\Apps\Util\wget: missing URL Usage: D:\Apps\Util\wget [OPTION]... [URL]... Try `D:\Apps\Util\wget --help' for more options. 这可能意味着,就是找文件wgetrc在c:/progra~1/wget/etc/wgetrc。不幸的是,该位置不适用于非root用户程序。我以为我可以修改SYSTEM_WGETRC或syswgetrc环境变量,但这看起来没有效果 D:\>echo %SYSTEM_WGETRC% d:\apps\util\wgetrc D:\>echo %syswgetrc% D:\APPS\Util\wgetrc
11 proxy  wget 

3
Wget的URL包含#
我想下载一个URL就是喜欢http://www.somesite.com/restaurants.html#photo=22x00085。 我将其放在单引号之间,但它仅下载http://www.somesite.com/restaurants.html,这不是正确的页面。 有解决方案吗?
11 wget  url 

4
如何使用wget下载而无需遵循带有参数的链接
我正在尝试下载两个站点以包含在CD中: http://boinc.berkeley.edu/trac/wiki http://www.boinc-wiki.info 我遇到的问题是这些都是Wiki。所以当用例如下载时: wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/ 我确实得到了很多文件,因为它也跟随着诸如...?action = edit ...?action = diff&version = ...之类的链接 有人知道解决这个问题的方法吗? 我只想要当前页面,没有图像,没有差异等。 PS: wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex 这为伯克利工作,但boinc-wiki.info仍然给我带来麻烦:/ PPS: 我得到了与以下内容最相关的页面: wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
11 linux  unix  wget 

3
循环搜索一系列数字以使用wget下载
如何编写将执行以下操作的bash脚本: URL = "example.com/imageID=" while (1..100) wget URL + $i #it will wget example.com/imageID=1, then 2, then 3, etc done 因此,我有许多循环要执行,URL以循环中的数字结尾。我需要wget所有这些。

4
Wget处于静默状态,但显示错误消息
我想使用Wget下载文件,但是按照通常的UNIX哲学,如果下载成功,我不希望它输出任何内容。但是,如果下载失败,我将显示一条错误消息。 该-q选项禁止显示所有输出,包括错误消息。如果我-nv改为包含选项,则Wget仍会打印(在stderr上): 2012-05-03 16:17:05 URL:http://example.net/ [2966] -> "index.html" [1] 如何删除该输出,但仍然收到错误消息?
11 wget 

5
如何结合wget和grep
我有一个html页网址,我想对其进行grep。我该怎么做wget someArgs | grep keyword? 我的第一个想法是wget -q -O - url | grep keyword,但是wget的输出绕​​过grep并以原始形式出现在终端上。
11 grep  wget 

5
您如何使用WGET来镜像一级站点,以恢复JS,CSS资源(包括CSS图像)?
假装我想将一个简单的页面副本下载到我的高清机中以永久保存。我不是在寻找深层递归获取,只是在寻找单个页面,也不希望下载该页面加载的任何资源。 范例:https://www.tumblr.com/ 期望: index.html 任何加载的图像 任何已加载的JS文件 任何加载的CSS文件 CSS文件中加载的所有图像 已本地化以与下载的副本一起使用的页面资源的链接(无网络依赖性) 我很想知道您是否可以帮助我找到最佳的wget语法或其他可以做到这一点的工具。我尝试过的工具通常无法通过CSS加载图像,因此在本地加载时页面看起来永远不正确。谢谢! 切线解 我找到了使用FireFox做到这一点的方法。默认保存已中断,并且有一个名为“保存完成”的插件,显然可以很好地完成此工作。但是,您无法下载它,因为它说当前的FireFox版本不支持它。原因是它已被卷入以下附加组件:“ Mozilla存档格式”。安装该文件,然后在使用“文件”>“页面另存为..”时,有一个名为“完整的网页”的新选项,它实际上是旧的插件,它修复了FireFox使用的原始实现(这很糟糕)。这不是WGET解决方案,但确实提供了可行的解决方案。 编辑:对于将来可能追随此问题并试图这样做的任何人来说,这都是一个荒谬的问题。要使插件正常工作,需要在工具> Mozilla存档格式上进行设置,并将(获取页面的真实快照)默认设置(可怕的)更改为“使用保存完成来保存脚本和源代码”,否则插件将清空所有您的脚本文件,并将其替换为文本“ / *被快照保存* /删除的脚本”。
11 javascript  html  css  images  wget 


1
如何下载带有aria2的整个文件夹?
Aria2是一个很好的wget替代品,具有很多功能,例如多线程,拆分下载,下载简历等。 但是拥有所有这些功能和选项会使执行某些特定命令变得困难。 我想从此处下载该XOWA整个文件夹,同时进行10次下载,并将文件从该目录分为4个部分:https : //archive.org/download/Xowa_enwiki_latest 要下载分为四个部分的单个文件,请使用: aria2c -s 4 -x 4 https://archive.org/download/Xowa_enwiki_latest/Xowa_enwikibooks_2015-04-07.7z 但是我想像该wget -r选项一样下载所有目录,但是每个文件有10个并发下载文件,每个文件有4个段下载,如何使用Aria2做到这一点。
11 linux  wget  aria2 

6
如何在Linux中将Wget与Tor Bundle一起使用
我是Linux Mint(Lisa)和Tor捆绑用户,试图在Tor上使用wget。按照我在这里找到的说明进行操作之后,运行wget时得到的只是一个输出文件,内容为“ 514 Authentication required”。 这是我做的事情:我下载了Linux的最新版本的Tor Bundle(版本2.2.35-9)并将其解压缩。我跑了./start-tor-browser。然后在Vidalia中进入设置->高级,然后取消选中“自动配置ControlPort”。(稍后,我还尝试将“身份验证”更改为“无”,但这仍然无法正常工作。)IP地址设置为localhost,端口为9051。 从终端我说: export http_proxy="http://127.0.0.1:9051" wget -proxy=on www.whatismyip.com 这给了我一个输出文件,上面写着“需要514身份验证”,而不是www.whatismyip.com。有任何想法吗?
10 linux  proxy  wget  linux-mint  tor 

2
如何使用Wget等命令行工具登录OpenID网站?
具体来说,我希望能够从我的用户配置文件中的各个Stack Exchange网站上下载某些页面。但是,我想cron从命令行以可解析的格式自动执行此操作(使用作业)。我更喜欢使用Linux,但是如果需要,我可以访问Mac或Windows计算机。 理想情况下,我想使用Wget或cURL之类的工具来获取页面。我不知道如何通过登录。我已经看到一些建议,其中提到您可以通过Firefox登录,导出相关的Cookie并通过其--load-cookies选项将其导入Wget 。例如在这里和这里。如果我刚刚登录,这可以正常工作,但不久后就不会生效。我想是因为ID令牌必须刷新。 因此,在登录到SU并导出我的cookie之后,我可以执行以下操作: wget --load-cookies cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses 几分钟后,我收到404错误: wget -O ~/stack/$(date +%s) --load-cookies ~/cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses --2013-08-06 04:04:14-- https://superuser.com/users/151431/terdon?tab=responses Resolving superuser.com (superuser.com)... 198.252.206.16 Connecting to superuser.com (superuser.com)|198.252.206.16|:80... connected. HTTP request sent, awaiting response... 404 Not Found 2013-08-06 04:04:15 ERROR 404: Not Found. 那么,如何从命令行自动登录启用了OpenID的网站? PS。我认为这比Web应用程序更适合这里,因为我的问题实际上是关于命令行方面的,而不是所讨论网页的实际细节。我想任何解决方案都将适用于所有OpenID网站。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.