如何下载整个网站?


81

我想下载整个网站(包括子网站)。有什么工具吗?


1
您到底想达到什么目的?标题和问题的内容无关,内容也不明确。
RolandiXor

注意,只有以下链接(例如,--convert-links在wget中使用)不会显示仅通过提交表单才能显示的站点。
史蒂文

Answers:


140

此处尝试示例10 :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror :打开适用于镜像的选项。

  • -p :下载正确显示给定HTML页面所需的所有文件。

  • --convert-links :下载后,将文档中的链接转换为本地查看。

  • -P ./LOCAL-DIR :将所有文件和目录保存到指定目录。

有什么方法可以只下载某些页面(例如,分布在多个html文档中的文章的某些部分)?
don.joey

@Private是的,尽管使用python或获取页面的方法可能更容易(取决于布局/ URL)。如果页面的网址之间的差异不断增加,或者您拥有页面列表,则可能在bash脚本中使用wget。
Vreality

2
--wait=seconds如果您想对站点更友好,则可以考虑使用参数;它将在两次检索之间等待指定的秒数。
belacqua 2014年

上面的方法有效,但是对于joomla,参数化的url创建的文件未在本地链接。对我有用的是wget -m -k -K -E your.domain.com, 来自这里:vaasa.hacklab.fi/2013/11/28/…–
M.Hefny

1
此外--no-parent,以“永不升入上一级目录”取自这里
丹尼尔(Daniel)

38

HTTrack for Linux以离线模式复制网站

httrack是您正在寻找的工具。

HTTrack允许您将Internet上的万维网站点下载到本地目录,以递归方式构建所有目录,并从服务器到计算机获取HTML,图像和其他文件。HTTrack安排原始站点的相对链接结构。


7

有了wget你可以下载整个网站,你应该使用-r一个开关递归下载。例如,

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER是一种方便的工具,可将整个网站下载到硬盘上以供离线浏览。启动ubuntu软件中心,然后在搜索框中输入不带引号的“ webhttrack网站复印机”。选择并将其从软件中心下载到您的系统上。从启动器或“开始”菜单启动webHTTrack,从那里您可以开始享受这个出色的工具来下载网站


3

我不了解子域,即子站点,但是wget可用于获取完整的站点。看一下这个超级用户问题。它说您可以用来-D domain1.com,domain2.com在单个脚本中下载不同的域。我认为您可以使用该选项下载子域,即-D site1.somesite.com,site2.somesite.com


1

我使用Burp -Spider工具比wget更智能,并且可以根据需要配置为避免分段。Burp Suite本身是一组功能强大的工具,可帮助进行测试,但是Spider工具非常有效。


1
不只是Windows打Bur吗?Burp的开源许可证协议也相当繁重。更不用说价格标签$ 299.00:
吉姆阿姆斯特丹

来自许可证的警告:警告:BURP SUITE免费版旨在测试安全漏洞,并且由于其功能的性质可能会对目标系统造成损害。对安全漏洞的测试本质上涉及以非标准方式与目标交互,而这可能会导致某些易受攻击的目标出现问题。使用软件时,您必须当心,使用前必须阅读所有文档,使用前应备份目标系统,并且不应在生产系统或其他系统上使用该软件,以免造成损坏的风险。
卡特阿姆斯特丹

就其功能而言,价格非常便宜-我建议您购买它进行广泛的安全测试。而且可以很容易地对其进行配置,使其完全按照您的要求进行测试-在某些情况下比AppScan更安全:-)
罗里·阿尔索普

1
@KatAmsterdam专门关于兼容性问题:根据Wikipedia的说法,Burp Suite是Java应用程序,因此应该可以在Ubuntu上正常运行。
伊利亚·卡根

凯特(Kat)-它可以在各种Linux上正常运行。许可证上的警告与可用于安全评估的任何工具相同。
罗里·阿尔索普


0

如果需要考虑速度(而不考虑服务器的安全性),则可以尝试puf,它类似于wget,但可以并行下载多个页面。但是,它不是最终产品,没有维护且非常无证。不过,对于要下载包含大量小文件的网站,这可能是一个不错的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.