本质上,我想使用Wget爬网整个站点,但是我绝不需要下载其他资源(例如图像,CSS,JS等)。我只想要HTML文件。
Google搜索完全没有用。
这是我尝试过的命令:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
我们的站点是PHP和CMS的混合平台。所以,HTML “文件”可能是/path/to/page
,/path/to/page/
,/path/to/page.php
,或/path/to/page.html
。
我什至包括了-R js,css
它,但是它仍然下载文件,然后拒绝它们(浪费带宽,CPU和服务器负载!)。
2
您到目前为止尝试过的命令是什么?如果文件命名一致,则应该可以使用-R标志。另外,您可以使用--ignore-tags标志并忽略脚本和img标签。
—
ernie 2014年
—
2014年
我尝试使用--accept = html,但它会下载CSS文件,然后将其删除。我想阻止他们下载。头请求很好,但是-例如,我注意到
—
弥敦道JB 2014年
Length: 558 [text/css]
不需要的文件。如果在标头不返回的情况下我可以停止请求text/html
,那我会很高兴。