我想下载网页的本地副本,并获取所有的CSS,图像,JavaScript等。
在先前的讨论中(例如,这里和这里,都有两年多的历史了),通常提出两个建议:wget -p
和httrack。但是,这些建议都失败了。使用这些工具之一来完成任务,我将非常感谢。替代品也很可爱。
选项1: wget -p
wget -p
成功下载了网页的所有必备组件(css,图像,js)。但是,当我在Web浏览器中加载本地副本时,该页面无法加载先决条件,因为尚未从Web版本上修改这些先决条件的路径。
例如:
- 在页面的html中,
<link rel="stylesheet href="https://stackoverflow.com/stylesheets/foo.css" />
将需要更正以指向的新的相对路径foo.css
- 在css文件中,
background-image: url(/images/bar.png)
将同样需要进行调整。
有没有一种方法可以wget -p
使路径正确?
选项2:httrack
httrack
似乎是一个用于镜像整个网站的好工具,但是我不清楚如何使用它来创建单个页面的本地副本。httrack论坛上有很多关于此主题的讨论(例如,此处),但似乎没有人提供防弹解决方案。
选项3:另一种工具?
有人建议使用付费工具,但我简直不敢相信那里没有免费的解决方案。
还有一些软件可以做到这一点,即Teleport Pro。
—
pbies,2016年
wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
下载网页和相关性(包括CSS图像)的可能重复项。
—
jww
wget -E -H -k -K -p http://example.com
-仅此方法对我有用。信用:superuser.com/a/136335/94039