我要抓取网站的所有页面和子页面(通过抓取,我的意思是将所有在线内容保存到本地HTML文件中)。
什么是爬网所有页面的最佳工具?理想情况下,我想指定要刮多少层。
我要抓取网站的所有页面和子页面(通过抓取,我的意思是将所有在线内容保存到本地HTML文件中)。
什么是爬网所有页面的最佳工具?理想情况下,我想指定要刮多少层。
Answers:
您有两种选择:
您可以wget
像这样使用命令行实用程序:
wget -rl 10
用10
您想递归到的级别数代替。
或者,您可以使用SiteSucker。递归下载网站的GUI应用程序。您还可以指定使用SiteSucker递归的距离。