如何使用wget从网站下载所有文件(而不是HTML)?


162

如何使用wget并从网站获取所有文件?

我需要除HTML,PHP,ASP等网页文件之外的所有文件。


即使您要下载php,也无法使用wget。我们只能使用wget获得原始HTML。我想您知道原因
Venkateshwaran Selvaraj13年

注意:请务必先进行检查wget --spider,并始终添加-w 1(或更多-w 5),以免淹没其他人的服务器。
同构状态2015年

1
如何下载此页面中的所有pdf文件?pualib.com/collection/pua-titles-a.html

堆栈溢出是一个用于编程和开发问题的站点。这个问题似乎与主题无关,因为它与编程或开发无关。请在帮助中心中查看我可以询问哪些主题。也许超级用户Unix&Linux Stack Exchange是一个更好的选择。另请参阅我在哪里发布有关Dev Ops的问题?
jww

Answers:


262

要过滤特定的文件扩展名:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

或者,如果您喜欢长选项名称:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

这将镜像该站点,但是没有jpgpdf扩展名的文件将被自动删除。


17
如果只想下载没有整个目录体系结构的文件,则可以使用-nd选项。
diabloneo 2014年

4
每个标志是什么意思?
尔根·保罗(

我认为--accept是区分大小写的,所以您必须这样做--accept pdf,jpg,PDF,JPG
Flimm 2014年

8
不知道这是否是新版本的,wget但您必须指定一种--progress类型,例如--progress=dot
jamis

@Flimm您还可以使用--ignore-case标志使--accept大小写不敏感。
严苛的

84

这为我下载了整个网站:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

20
+1 -e robots=off!这终于解决了我的问题!:)谢谢
NHDaly

12
--random-wait选项是天才;)
poitroae

2
@izilotti网站所有者可以找出您是否通过这种方法WGET他们的网站文件吗?
Elias14年

1
@whatIsperfect绝对有可能。
2014年

1
@JackNicholsonn网站所有者将如何知道?使用的代理是Mozilla,这意味着所有标头都将作为Mozilla浏览器进入,因此无法检测到所使用的wget?如果我错了,请更正。谢谢
KhoPhi 2014年

63
wget -m -p -E -k -K -np http://site/path/

手册页将告诉您这些选项的作用。

wget将仅跟随链接,如果索引页面中没有指向文件的链接,则wget不会知道其存在,因此不会下载。即。如果在网页或目录索引中链接了所有文件,它将很有帮助。


感谢您的答复:)它复制了整个网站,我只需要网站中的文件(即txt,pdf,图像等)
Aniruddhsinh 2012年

25

我试图下载从Omeka的主题页面链接的zip文件-非常相似的任务。这对我有用:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
  • -A:仅接受zip文件
  • -r:递归
  • -l 1:一层深(即,仅此页面上直接链接的文件)
  • -nd:不要创建目录结构,只需将所有文件下载到该目录中即可。

所有的答案-k-K-E等选项可能还没有真正理解这个问题,因为这些对于重写HTML页面来进行局部结构,重命名.php文件等。不相干。

要从字面上获取 .html etc 外的所有文件:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

2
-A我认为是区分大小写的,所以您必须这样做-A zip,ZIP
Flimm 2014年

7

您可以尝试:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

您还可以添加:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

接受特定扩展名,或仅拒绝特定扩展名:

-R html,htm,asp,php

或排除特定区域:

-X "search*,forum*"

如果机器人(例如搜索引擎)忽略了这些文件,则还必须添加: -e robots=off




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.