如何下载文件并使用href名称重命名?


2

你如何从网页上大量下载文件,并使用他们拥有的href名称(描述)重命名它们?

我们的想法是,下载的文件具有描述性名称,与原始文件名不同。

例如,假设网页包含以下链接

<a href='http://www.example.com/docs/ex160.pdf'>Advanced Foo Bar</a>

理想情况下,我想将其保存为“Advanced Foo Bar.pdf”,但即使是“Advanced Foo Bar”也没问题,因为我可以使用批量重命名实用程序将pdf扩展名添加到我必须下载的大约一百个文件中。

我一直在使用FlashGotAll扩展程序进行Firefox下载,除了没有内置的重命名功能外,它还可以很好地进行批量下载。

我也可以启动Linux(或使用cygwin)并使用curl或wget,如果需要这个解决方案。

Answers:


1

假设html内容看起来很像你的例子(即每行只有一个href,没有分成几行,没有混合HREF和href等),你可以下载页面并运行

prompt$ grep www.example.com the_page.html | sed 's/.*href="\([^"]\+\)">\([^<]*\)<.*/wget -O "\2".pdf \1/' | tee files_to_download
wget -O "Advanced Foo Bar".pdf http://www.example.com/docs/ex160.pdf
...
prompt$

编辑files_to_download(如果适用),然后通过运行下载 sh files_to_download

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.