您如何指示wget递归爬网网站并仅下载某些类型的图像?
我尝试使用它来爬网站点,并且仅下载Jpeg图像:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
但是,即使page1.html包含数百个子页面的链接,而这些子页面本身都具有直接链接到图像的信息,wget仍会报告诸如“删除subpage13.html,因为它应被拒绝,因为它应该被拒绝”之类的信息,并且从不下载任何图像,因为没有图像直接链接到该页面。从起始页面开始。
我假设这是因为我的--accept既用于引导爬网,也用于过滤要下载的内容,而我希望它仅用于引导内容的下载。如何让wget抓取所有链接,但仅下载具有某些扩展名的文件(例如* .jpeg)?
编辑:此外,某些页面是动态的,并且是通过CGI脚本生成的(例如img.cgi?fo9s0f989wefw90e)。即使我将cgi添加到我的接受列表(例如--accept = jpg,jpeg,html,cgi)中,也始终会被拒绝。有没有解决的办法?