使用wget将包含所有图像和CSS的整个网页保存到一个文件夹和一个文件中?


1

有没有办法模仿浏览器中的“另存为”功能?

当我在浏览器中保存网页时,我得到一个包含资产(图像,js,css)和索引文件的文件夹,其中包含页面名称:

Nov 28 reddit: the front page of the internet_files
Nov 28 reddit: the front page of the internet.html

但无论如何,当我使用wget时,我会得到这样的东西:

Nov 28  a.thumbs.redditmedia.com
Nov 28  b.thumbs.redditmedia.com
Nov 28  m.reddit.com
Nov 28  out.reddit.com
Nov 28  reddit.com
Nov 28  www.reddit.com
Nov 28  www.redditstatic.com

我试过用这些:

wget -E -H -k -K -p https://reddit.com
wget -r -x -mirror https://reddit.com

并想出了这个: wget -E -H -k -p -e robots=off https://www.reddit.com

但他们都制作了几个文件夹,或者没有下载离线查看页面所需的所有内容。

我该如何设置?

Answers:


0

你/ WGET不能。它可以在一个给定的下载中下载所有链接的资源,但由于其爬行的性质而不会解释(并且也不绑定到HTTP),这将导致多个文件夹。

你的印象也太窄了:有些网页浏览器可以将页面保存到MHT文件/档案中,这甚至是一个标准 - 见 https://en.wikipedia.org/wiki/MHTML

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.