Questions tagged «web-crawler»

5
将网页转换为一个电子书文件
我想下载HTML(例如:http ://www.brpreiss.com/books/opus6/ ),并将其加入一种HTML或其他可以在电子书阅读器上使用的格式。带有免费书籍的网站没有标准的页面调度,它们不是博客或论坛,因此不知道如何进行一些自动爬网和合并。


2
如何使用wget进行爬网以仅下载HTML文件(忽略图片,css,js)
本质上,我想使用Wget爬网整个站点,但是我绝不需要下载其他资源(例如图像,CSS,JS等)。我只想要HTML文件。 Google搜索完全没有用。 这是我尝试过的命令: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com 我们的站点是PHP和CMS的混合平台。所以,HTML “文件”可能是/path/to/page,/path/to/page/,/path/to/page.php,或/path/to/page.html。 我什至包括了-R js,css它,但是它仍然下载文件,然后拒绝它们(浪费带宽,CPU和服务器负载!)。
14 wget  web-crawler 

4
使用Wget递归抓取网站并下载图像
您如何指示wget递归爬网网站并仅下载某些类型的图像? 我尝试使用它来爬网站点,并且仅下载Jpeg图像: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html 但是,即使page1.html包含数百个子页面的链接,而这些子页面本身都具有直接链接到图像的信息,wget仍会报告诸如“删除subpage13.html,因为它应被拒绝,因为它应该被拒绝”之类的信息,并且从不下载任何图像,因为没有图像直接链接到该页面。从起始页面开始。 我假设这是因为我的--accept既用于引导爬网,也用于过滤要下载的内容,而我希望它仅用于引导内容的下载。如何让wget抓取所有链接,但仅下载具有某些扩展名的文件(例如* .jpeg)? 编辑:此外,某些页面是动态的,并且是通过CGI脚本生成的(例如img.cgi?fo9s0f989wefw90e)。即使我将cgi添加到我的接受列表(例如--accept = jpg,jpeg,html,cgi)中,也始终会被拒绝。有没有解决的办法?

4
使用cURL进行网站抓取如何“合法”?[关闭]
按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 9年前关闭。 最近,我正在尝试使用cURL,但发现它有很多可能。我建立了一个小脚本,可以爬行一个音乐网站,该网站播放在线歌曲。在实验的过程中,我发现还可以抓取歌曲源(该站点不提供下载)。 我只是想知道。.爬网是否完全合法?我是指使用http and port '80', 市场上缺少下载管理器,他们可以从几乎所有站点下载..都是合法有效的。

3
从数字范围的网页中提取链接
我想从这样的数字序列中提取链接: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html 我想要的输出是一个文本文件,其中包含从这些页面上的链接收集的URL: http://www.test.com/index.html http://www.google.com http://www.superuser.com/questions 要清楚,我不想下载页面,我只想要一个链接列表。 Windows软件很有意思,但Linux也可以。我能想到的只是用Xidel编写一个长批处理脚本,但遇到错误时它不会很强大。Curl可以下载页面范围,但是我需要以某种方式解析它们。 感谢Enigman让我走上正轨。我创建了一个Perl脚本,它从文件中读取URL并吐出与$ site中存储的字符串匹配的链接: use warnings; use LWP; $site = "twitter.com"; my $browser = LWP::UserAgent->new; my @ns_headers = ( 'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language' => 'en-GB,en;q=0.8', ); open …


2
抓取网络的“智能”方式[关闭]
我有一个项目,我必须抓取网络 lyrics,我正在实施 depth-first search 我正在列表中创建一个数据库(其中包含嵌套列表,稍后将保存在文件中)。我的想法是获取网站的HTML内容并将其保存在文件中,然后从中解析出歌词。但问题是它很慢而且我是不必要的页面(广告链接)是否有任何解决方案或“更好”是实施机器人?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.