Answers:
您可以使用wget命令行实用程序执行所需的操作。如果您为其提供-r
选项,它将以递归方式下载网页。例如:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
这将下载该网页及其链接的任何内容。您还可以使其仅递归一定数量的级别,为此,您只需提供-r
一个数字即可。像这样:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
该线程现在已经很旧了,但是其他人可能会看一下它。谢谢Wuffers,他为我指明了正确的方向,但是,请您扩展一下Wuffers的答案:wget的现代版本提供了许多有用的选项,用于递归链接并将其修补为本地相对链接,以便您可以浏览本地副本网站。使用-r选项递归,使用-k选项修补本地链接,使用-H选项遍历除原始域之外的域,使用-D选项限制遍历的域,使用-l选项限制深度和-p选项,以确保遍历的叶子具有正确显示所需的所有内容。例如,以下代码将下载一个页面及其直接链接的所有内容,从而使其在本地可浏览,
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
使用与上述命令类似的命令,我可以将包含外部链接的Wiki页面的一部分下载到我的本地磁盘上,而无需下载兆字节的无关数据。现在,当我在浏览器中打开根页面时,无需Internet连接即可导航树。唯一令人烦恼的是,根页面埋在了子目录中,为了方便显示,我不得不创建一个顶层重定向页面。要使其正确,可能需要反复试验。阅读wget手册页并进行实验。
您可以使用httrack这样的免费网站爬虫。
从网站;
[httrack]允许您将Internet上的万维网站点下载到本地目录,以递归方式构建所有目录,并将HTML,图像和其他文件从服务器下载到计算机。HTTrack安排原始站点的相对链接结构。只需在浏览器中打开“镜像”网站的页面,就可以从一个链接到另一个链接浏览该网站,就像您正在在线查看它一样。