如何提取网页的所有外部链接并将其保存到文件中?


11

如何提取网页的所有外部链接并将其保存到文件中?

如果您有任何命令行工具,那就太好了。

Answers:


18

您将需要2个工具lynxawk,请尝试以下操作:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

如果需要编号行,请使用命令nl,请尝试以下操作:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

我认为这不适用于相对网址
Sridhar Sarnobat,

8

这是对勒尔顿答案的一种改进:您不需要awk,因为山猫有一些有用的选择。

lynx -listonly -nonumbers -dump http://www.google.com.br

如果你想要数字

lynx -listonly -dump http://www.google.com.br

0
  1. 使用Beautiful Soup检索有问题的网页。
  2. 使用awk查找所有未指向您的域的URL

我会推荐“美丽汤”而不是屏幕抓取技术。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.