Answers:
您可以使用wget并运行如下命令:
wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com
或使用简短选项:
wget -r -l 1 -nd -nH -A pdf http://example.com
更新:由于您的更新说您正在运行Windows 7 ,因此请从cmd
提示符处将wget用于Windows。
更新2:对于图形解决方案-尽管可能会过分使用,因为它也会获取其他文件,所以它是DownThemAll
-w 5
在浏览器中,按CTRL+ SHIFT+ J,然后输入
var pdflinks = []; Array.prototype.map。调用(document.querySelectorAll(“ a [href $ = \”。pdf \“]”),函数(e,i){if((pdflinks || [])。indexOf(e.href)==-1) {pdflinks.push(e.href);}});console.log(pdflinks.join(“”));
这将在控制台中返回:
“ /superuser/tagged/somepdf1.pdf ”“ /superuser/tagged/somepdf2.pdf ”“ /superuser/tagged/somepdf3.pdf ”
现在使用wget
命令行选项wget url1 url2 ...
复制并粘贴此内容,打开控制台Enter,wget
然后单击鼠标右键以插入剪贴板内容,然后按Enter。
要使用下载文件,请将行与“ \ n”连接起来,并按如下所示使用参数 wget -i mydownload.txt
请注意,大多数其他(GUI)下载程序也接受使用空格分隔的URL列表进行调用。
希望这可以帮助。这就是我通常的做法。它比任何具有图形用户界面的扩展都更快,更灵活,我必须学习并保持熟悉。
console.log('"' + pdflinks.join('" "') + '"')
-否则,您实际上并不会获得引用的URL
很少有Python工具可以根据Google搜索结果从网站下载PDF链接。
例如
google_dl
脚本(推荐)。
用法:
./google_dl -s http://www.example.com/ -f pdf ""
gsrchDwn
脚本(基于neo的脚本)。
用法:
./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
注意:我是上述两个脚本的维护者。
他们俩都在实现xgoogle
Python库。我的这个库的分支基于pkrumins/xgoogle
版本。
相关:从Linux命令行进行Web搜索。