Questions tagged «wget»

GNU Wget是一个免费软件包,可使用HTTP,HTTPS和FTP(最广泛使用的Internet协议)检索文件。它是一种非交互式命令行工具,因此可以轻松地从脚本,Cron作业,不支持X Window System(X11)的终端等中调用它。


1
为什么在使用sudo执行时wget会给出错误,但在没有该命令的情况下可以正常工作?
我尝试了以下命令: $ wget -q --tries=10 --timeout=20 --spider http://google.com (从这篇SO帖子中。我要检查bash中的Internet连接。) 我得到以下输出: Spider mode enabled. Check if remote file exists. --2015-09-28 09:55:50-- http://google.com/ Connecting to 127.0.0.1:3128... connected. Proxy request sent, awaiting response... 302 Found Location: http://www.google.de/?gfe_rd=cr&ei=k_IIVreaN-yH8Qfe1Yu4CA [following] Spider mode enabled. Check if remote file exists. --2015-09-28 09:55:50-- http://www.google.de/?gfe_rd=cr&ei=k_IIVreaN-yH8Qfe1Yu4CA Connecting to 127.0.0.1:3128... connected. …
21 bash  sudo  wget 

3
使用Wget下载所有文件夹,子文件夹和文件
我一直在使用Wget,但遇到了一个问题。我有一个网站,该网站内有几个文件夹和子文件夹。我需要下载每个文件夹和子文件夹中的所有内容。我已经尝试过使用Wget的几种方法,当我检查完成情况时,我在文件夹中看到的只是一个“索引”文件。我可以单击索引文件,它将带我进入这些文件,但是我需要实际的文件。 有没有人有我忽略的Wget命令,或者是否有另一个我可以用来获取所有这些信息的程序? 网站示例: 图片目录中的www.mysite.com/Pictures/,有几个文件夹..... www.mysite.com/图片/会计/ www.mysite.com/Pictures/Managers/北美/加利福尼亚/JoeUser.jpg 我需要所有文件,文件夹等.....
21 wget 

4
如何为Windows安装Wget?
我从此处下载了Wget,并获得了名为的文件wget-latest.tar.gz,日期为2009年9月22日。我将其保存到D:驱动器上的一个文件夹中,并将其解压缩。我通读了READ ME文件,但没有找到有关如何安装文件的任何信息。由于没有Install文件,因此我假定将其解压缩wget.zip到以前创建的文件夹中。 但是,当我打开命令行并键入时: wget -r -A ".jpg,.gif,.png" http://mywebsite 我只收到一条错误消息。由于我目前正在使用中文版本的XP,而且我看不懂中文,所以我不明白该消息在说什么,但是我认为这意味着Wget安装不正确。 那么,如何在Windows XP上正确安装Wget?

2
持续重新尝试使用curl恢复下载
我在Mac上,有一些要从ftp服务器下载的文件列表。连接有点麻烦,因此如果连接断开,我希望它重试并恢复。 我知道我可以使用wget来做到这一点,但是不幸的是Mac OS X并不附带wget。我可以安装它,但是要这样做(除非我错过了什么),我需要先安装XCode和MacPorts,我想避免这样做。 虽然可以使用Curl,但我不知道它是如何工作的或如何真正使用它。如果我在文本文件中有文件列表(每行一个完整路径,如ftp:// user:pass @ server / dir / file1),如何使用curl下载所有这些文件?我可以卷翘以永不放弃吗?例如,无限重试并在中断的地方继续下载,诸如此类?
17 mac  unix  download  wget  curl 


3
使用wget --mirror转义查询字符串
我曾经wget --mirror --html-extension --convert-links用来镜像站点,但最终得到了许多格式的文件名post.php?id=#.html。当我尝试在浏览器中查看这些内容时,它会失败,因为浏览器在加载文件时会忽略查询字符串。是否可以用其他方法替换?文件名中的字符? --restrict-file-names=windows正确工作的答案。与标志--convert-links和--adjust-extension/ -E(以前称为--html-extension,但也可以使用,但已弃用)结合使用,将生成一个运行正常的镜像。 wget --mirror --adjust-extension --convert-links --restrict-file-names=windows http://www.example
15 linux  wget  mirroring 

3
Firefox的递归下载(`wget -r`)是否等效?
我有一个网站,我想下载该网站内的所有页面/链接。我想wget -r在此URL上执行。没有链接位于该特定目录的“外部”,因此我不必担心下载整个Internet。 事实证明,我想要的页面位于网站的密码保护部分的后面。虽然我可以使用wget手动进行Cookie协商,但对我来说,仅从浏览器“登录”并使用一些firefox插件递归下载所有内容会容易得多。 是否有扩展程序或可以让我执行此操作的内容?许多扩展都专注于从页面获取媒体/图片(呵呵),但是我对所有内容都感兴趣-HTML和所有内容。 有什么建议吗? 谢谢! 编辑 DownThemAll似乎是一个不错的建议。可以递归下载吗?如上,下载页面上的所有链接,然后下载每个页面中包含的所有链接,等等?这样我基本上可以通过以下链接来镜像整个目录树?喜欢Kinda的-r选项wget吗?

3
如何在Wget中使用Firefox cookie?
wget --load-cookies会将cookie加载为“文本文件,其格式最初是Netscape的cookies.txt文件使用的格式”。但是,Firefox将其cookie保留在SQLite数据库中。 有没有办法从Firefox cookies.sqlite文件中提取“ Netscape的cookies.txt文件” ?
15 firefox  wget  cookies 

3
ftp的wget使用包含@的密码
我正在尝试从命令行从ftp服务器获取一些文件。我正在使用wget一次下载整个文件夹。该命令是: wget -m ftp://username:password@ftp.hostname.com:/path/to/folder 但是问题是,我的密码包含“ @”符号。因此,命令变为 wget -m ftp://username:foo@bar@ftp.hostname.com:/.. 因此,wget尝试将bar@ftp.hostname.com解析为主机,但它无法这样做。请帮忙!
15 ftp  wget 


2
如何使用wget下载大文件?
我正在使用从8GB笔式驱动器运行的Linux Mint 15 Cinnamon。我想获取“ Linux Mint 14“ Nadia” KDE”的ISO。我尝试wget在终端中使用。这正是我键入的内容: wget http://mirror.ufs.ac.za/linuxmint/stable/14/linuxmint-14-kde-dvd-64bit.iso 在下载到30%(大约2小时后)之后,我很失望地看到它停止了下载。我曾经用过,wget因为我不想一直打开铬浏览器。请帮助我,以便我下载它。提前致谢。
14 linux  linux-mint  wget 

2
如何使用wget进行爬网以仅下载HTML文件(忽略图片,css,js)
本质上,我想使用Wget爬网整个站点,但是我绝不需要下载其他资源(例如图像,CSS,JS等)。我只想要HTML文件。 Google搜索完全没有用。 这是我尝试过的命令: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com 我们的站点是PHP和CMS的混合平台。所以,HTML “文件”可能是/path/to/page,/path/to/page/,/path/to/page.php,或/path/to/page.html。 我什至包括了-R js,css它,但是它仍然下载文件,然后拒绝它们(浪费带宽,CPU和服务器负载!)。
14 wget  web-crawler 

4
wget -o失败时写入空文件
如果我写wget“没有这样的地址” -o“ test.html”,它将首先创建test.html,如果失败,则将其留空。但是,当不使用-o时,它将等待以查看下载是否成功,并且只有在此之后,它将写入文件。 我也希望将后一种行为应用于-o,这可能吗?
14 wget 

4
使用Wget递归抓取网站并下载图像
您如何指示wget递归爬网网站并仅下载某些类型的图像? 我尝试使用它来爬网站点,并且仅下载Jpeg图像: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html 但是,即使page1.html包含数百个子页面的链接,而这些子页面本身都具有直接链接到图像的信息,wget仍会报告诸如“删除subpage13.html,因为它应被拒绝,因为它应该被拒绝”之类的信息,并且从不下载任何图像,因为没有图像直接链接到该页面。从起始页面开始。 我假设这是因为我的--accept既用于引导爬网,也用于过滤要下载的内容,而我希望它仅用于引导内容的下载。如何让wget抓取所有链接,但仅下载具有某些扩展名的文件(例如* .jpeg)? 编辑:此外,某些页面是动态的,并且是通过CGI脚本生成的(例如img.cgi?fo9s0f989wefw90e)。即使我将cgi添加到我的接受列表(例如--accept = jpg,jpeg,html,cgi)中,也始终会被拒绝。有没有解决的办法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.