从数字范围的网页中提取链接
我想从这样的数字序列中提取链接: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html 我想要的输出是一个文本文件,其中包含从这些页面上的链接收集的URL: http://www.test.com/index.html http://www.google.com http://www.superuser.com/questions 要清楚,我不想下载页面,我只想要一个链接列表。 Windows软件很有意思,但Linux也可以。我能想到的只是用Xidel编写一个长批处理脚本,但遇到错误时它不会很强大。Curl可以下载页面范围,但是我需要以某种方式解析它们。 感谢Enigman让我走上正轨。我创建了一个Perl脚本,它从文件中读取URL并吐出与$ site中存储的字符串匹配的链接: use warnings; use LWP; $site = "twitter.com"; my $browser = LWP::UserAgent->new; my @ns_headers = ( 'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language' => 'en-GB,en;q=0.8', ); open …