电脑用户 wget

6

我正在尝试使用wget创建网站的本地镜像。但是我发现我没有得到所有的链接页面。这是网站 http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ 我不想所有的开头的页面web.archive.org，但我确实希望所有的开头的页面http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/。当我使用时wget -r，在文件结构中我发现 web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, 但我没有该数据库中的所有文件，例如 web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html. 也许httrack会做得更好，但是现在这太抢手了。因此，通过哪种方法可以从Internet Archive Wayback Machine上获取已存档网站的本地副本？

12 linux wget httrack webarchive

2

可以进行wget空运行吗？

我知道您可以使用递归下载网页wget，但是可以进行试运行吗？这样您就可以进行测试以查看如果实际下载了多少文件？考虑具有大量指向媒体文件（例如图像，音频或电影文件）链接的页面。

12 wget

1

如何使用curl / wget从不同来源下载同一文件的一部分？

我在五个不同的服务器上托管了一个很大的文件。我希望能够从每个服务器下载文件的不同部分，然后将这些部分连接起来，以生成原始文件。是否可以使用curl / wget或任何其他OS X命令行工具来执行此操作？

12 macos download wget curl

2

如何：在指定的时间间隔内从Wayback Machine下载页面

我的意思是在指定的时间段和间隔内从Wayback Machine下载可用的每个页面。例如，我想从2012年1月到2012年12月每天从nature.com下载可用的每个页面。（这不完全是我想要做的，但是已经足够接近了-并提供了一个很好的示例。）不幸的是，由于Wayback机器的独特工作原理，wget无法正常工作。似乎Wayback Machine下载器之类的工具只能下载该页面的最新版本。与IA API进行交互似乎是一条可行的路线，但是我不确定这将如何工作。谢谢！

11 download wget webpage

3

如何在Windows下为wget设置http代理地址？

如果没有参数运行我的wget打印： D:\>wget SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:/progra~1/wget/etc/wgetrc D:\Apps\Util\wget: missing URL Usage: D:\Apps\Util\wget [OPTION]... [URL]... Try `D:\Apps\Util\wget --help' for more options. 这可能意味着，就是找文件wgetrc在c:/progra~1/wget/etc/wgetrc。不幸的是，该位置不适用于非root用户程序。我以为我可以修改SYSTEM_WGETRC或syswgetrc环境变量，但这看起来没有效果 D:\>echo %SYSTEM_WGETRC% d:\apps\util\wgetrc D:\>echo %syswgetrc% D:\APPS\Util\wgetrc

11 proxy wget

3

Wget的URL包含＃

我想下载一个URL就是喜欢http://www.somesite.com/restaurants.html#photo=22x00085。我将其放在单引号之间，但它仅下载http://www.somesite.com/restaurants.html，这不是正确的页面。有解决方案吗？

11 wget url

4

如何使用wget下载而无需遵循带有参数的链接

我正在尝试下载两个站点以包含在CD中： http://boinc.berkeley.edu/trac/wiki http://www.boinc-wiki.info 我遇到的问题是这些都是Wiki。所以当用例如下载时： wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/ 我确实得到了很多文件，因为它也跟随着诸如...？action = edit ...？action = diff＆version = ...之类的链接有人知道解决这个问题的方法吗？我只想要当前页面，没有图像，没有差异等。 PS： wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex 这为伯克利工作，但boinc-wiki.info仍然给我带来麻烦：/ PPS：我得到了与以下内容最相关的页面： wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

11 linux unix wget

3

循环搜索一系列数字以使用wget下载

如何编写将执行以下操作的bash脚本： URL = "example.com/imageID=" while (1..100) wget URL + $i #it will wget example.com/imageID=1, then 2, then 3, etc done 因此，我有许多循环要执行，URL以循环中的数字结尾。我需要wget所有这些。

11 bash shell-script wget

4

Wget处于静默状态，但显示错误消息

我想使用Wget下载文件，但是按照通常的UNIX哲学，如果下载成功，我不希望它输出任何内容。但是，如果下载失败，我将显示一条错误消息。该-q选项禁止显示所有输出，包括错误消息。如果我-nv改为包含选项，则Wget仍会打印（在stderr上）： 2012-05-03 16:17:05 URL:http://example.net/ [2966] -> "index.html" [1] 如何删除该输出，但仍然收到错误消息？

11 wget

5

如何结合wget和grep

我有一个html页网址，我想对其进行grep。我该怎么做wget someArgs | grep keyword？我的第一个想法是wget -q -O - url | grep keyword，但是wget的输出绕过grep并以原始形式出现在终端上。

11 grep wget

5

您如何使用WGET来镜像一级站点，以恢复JS，CSS资源（包括CSS图像）？

假装我想将一个简单的页面副本下载到我的高清机中以永久保存。我不是在寻找深层递归获取，只是在寻找单个页面，也不希望下载该页面加载的任何资源。范例：https：//www.tumblr.com/ 期望： index.html 任何加载的图像任何已加载的JS文件任何加载的CSS文件 CSS文件中加载的所有图像已本地化以与下载的副本一起使用的页面资源的链接（无网络依赖性）我很想知道您是否可以帮助我找到最佳的wget语法或其他可以做到这一点的工具。我尝试过的工具通常无法通过CSS加载图像，因此在本地加载时页面看起来永远不正确。谢谢！切线解我找到了使用FireFox做到这一点的方法。默认保存已中断，并且有一个名为“保存完成”的插件，显然可以很好地完成此工作。但是，您无法下载它，因为它说当前的FireFox版本不支持它。原因是它已被卷入以下附加组件：“ Mozilla存档格式”。安装该文件，然后在使用“文件”>“页面另存为..”时，有一个名为“完整的网页”的新选项，它实际上是旧的插件，它修复了FireFox使用的原始实现（这很糟糕）。这不是WGET解决方案，但确实提供了可行的解决方案。编辑：对于将来可能追随此问题并试图这样做的任何人来说，这都是一个荒谬的问题。要使插件正常工作，需要在工具> Mozilla存档格式上进行设置，并将（获取页面的真实快照）默认设置（可怕的）更改为“使用保存完成来保存脚本和源代码”，否则插件将清空所有您的脚本文件，并将其替换为文本“ / *被快照保存* /删除的脚本”。

11 javascript html css images wget

3

使wget不下载大于X大小的文件

好吧，我放弃。如何限制下载的文件的大小，例如我不希望任何大于2 MB的文件？

11 download wget

1

如何下载带有aria2的整个文件夹？

Aria2是一个很好的wget替代品，具有很多功能，例如多线程，拆分下载，下载简历等。但是拥有所有这些功能和选项会使执行某些特定命令变得困难。我想从此处下载该XOWA整个文件夹，同时进行10次下载，并将文件从该目录分为4个部分：https : //archive.org/download/Xowa_enwiki_latest 要下载分为四个部分的单个文件，请使用： aria2c -s 4 -x 4 https://archive.org/download/Xowa_enwiki_latest/Xowa_enwikibooks_2015-04-07.7z 但是我想像该wget -r选项一样下载所有目录，但是每个文件有10个并发下载文件，每个文件有4个段下载，如何使用Aria2做到这一点。

11 linux wget aria2

6

如何在Linux中将Wget与Tor Bundle一起使用

我是Linux Mint（Lisa）和Tor捆绑用户，试图在Tor上使用wget。按照我在这里找到的说明进行操作之后，运行wget时得到的只是一个输出文件，内容为“ 514 Authentication required”。这是我做的事情：我下载了Linux的最新版本的Tor Bundle（版本2.2.35-9）并将其解压缩。我跑了./start-tor-browser。然后在Vidalia中进入设置->高级，然后取消选中“自动配置ControlPort”。（稍后，我还尝试将“身份验证”更改为“无”，但这仍然无法正常工作。）IP地址设置为localhost，端口为9051。从终端我说： export http_proxy="http://127.0.0.1:9051" wget -proxy=on www.whatismyip.com 这给了我一个输出文件，上面写着“需要514身份验证”，而不是www.whatismyip.com。有任何想法吗？

10 linux proxy wget linux-mint tor

2

如何使用Wget等命令行工具登录OpenID网站？

具体来说，我希望能够从我的用户配置文件中的各个Stack Exchange网站上下载某些页面。但是，我想cron从命令行以可解析的格式自动执行此操作（使用作业）。我更喜欢使用Linux，但是如果需要，我可以访问Mac或Windows计算机。理想情况下，我想使用Wget或cURL之类的工具来获取页面。我不知道如何通过登录。我已经看到一些建议，其中提到您可以通过Firefox登录，导出相关的Cookie并通过其--load-cookies选项将其导入Wget 。例如在这里和这里。如果我刚刚登录，这可以正常工作，但不久后就不会生效。我想是因为ID令牌必须刷新。因此，在登录到SU并导出我的cookie之后，我可以执行以下操作： wget --load-cookies cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses 几分钟后，我收到404错误： wget -O ~/stack/$(date +%s) --load-cookies ~/cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses --2013-08-06 04:04:14-- https://superuser.com/users/151431/terdon?tab=responses Resolving superuser.com (superuser.com)... 198.252.206.16 Connecting to superuser.com (superuser.com)|198.252.206.16|:80... connected. HTTP request sent, awaiting response... 404 Not Found 2013-08-06 04:04:15 ERROR 404: Not Found. 那么，如何从命令行自动登录启用了OpenID的网站？ PS。我认为这比Web应用程序更适合这里，因为我的问题实际上是关于命令行方面的，而不是所讨论网页的实际细节。我想任何解决方案都将适用于所有OpenID网站。

10 linux command-line wget curl openid

Questions tagged «wget»