电脑用户 web-crawler

5

我想下载HTML（例如：http ://www.brpreiss.com/books/opus6/ ），并将其加入一种HTML或其他可以在电子书阅读器上使用的格式。带有免费书籍的网站没有标准的页面调度，它们不是博客或论坛，因此不知道如何进行一些自动爬网和合并。

23 ebook web-crawler

2

为什么电子邮件地址中的@有时在网页上写为[at]？

为什么有时@在网页中有时写成[at]？是否有任何特定原因？

15 email html web spam-prevention web-crawler

2

如何使用wget进行爬网以仅下载HTML文件（忽略图片，css，js）

本质上，我想使用Wget爬网整个站点，但是我绝不需要下载其他资源（例如图像，CSS，JS等）。我只想要HTML文件。 Google搜索完全没有用。这是我尝试过的命令： wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com 我们的站点是PHP和CMS的混合平台。所以，HTML “文件”可能是/path/to/page，/path/to/page/，/path/to/page.php，或/path/to/page.html。我什至包括了-R js,css它，但是它仍然下载文件，然后拒绝它们（浪费带宽，CPU和服务器负载！）。

14 wget web-crawler

4

使用Wget递归抓取网站并下载图像

您如何指示wget递归爬网网站并仅下载某些类型的图像？我尝试使用它来爬网站点，并且仅下载Jpeg图像： wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html 但是，即使page1.html包含数百个子页面的链接，而这些子页面本身都具有直接链接到图像的信息，wget仍会报告诸如“删除subpage13.html，因为它应被拒绝，因为它应该被拒绝”之类的信息，并且从不下载任何图像，因为没有图像直接链接到该页面。从起始页面开始。我假设这是因为我的--accept既用于引导爬网，也用于过滤要下载的内容，而我希望它仅用于引导内容的下载。如何让wget抓取所有链接，但仅下载具有某些扩展名的文件（例如* .jpeg）？编辑：此外，某些页面是动态的，并且是通过CGI脚本生成的（例如img.cgi？fo9s0f989wefw90e）。即使我将cgi添加到我的接受列表（例如--accept = jpg，jpeg，html，cgi）中，也始终会被拒绝。有没有解决的办法？

12 linux bash script web-crawler wget

4

使用cURL进行网站抓取如何“合法”？[关闭]

按照目前的情况，这个问题并不适合我们的问答形式。我们希望答案得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 9年前关闭。最近，我正在尝试使用cURL，但发现它有很多可能。我建立了一个小脚本，可以爬行一个音乐网站，该网站播放在线歌曲。在实验的过程中，我发现还可以抓取歌曲源（该站点不提供下载）。我只是想知道。.爬网是否完全合法？我是指使用http and port '80'，市场上缺少下载管理器，他们可以从几乎所有站点下载..都是合法有效的。

12 php curl screen-scraping web-crawler

3

从数字范围的网页中提取链接

我想从这样的数字序列中提取链接： http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html 我想要的输出是一个文本文件，其中包含从这些页面上的链接收集的URL： http://www.test.com/index.html http://www.google.com http://www.superuser.com/questions 要清楚，我不想下载页面，我只想要一个链接列表。 Windows软件很有意思，但Linux也可以。我能想到的只是用Xidel编写一个长批处理脚本，但遇到错误时它不会很强大。Curl可以下载页面范围，但是我需要以某种方式解析它们。感谢Enigman让我走上正轨。我创建了一个Perl脚本，它从文件中读取URL并吐出与$ site中存储的字符串匹配的链接： use warnings; use LWP; $site = "twitter.com"; my $browser = LWP::UserAgent->new; my @ns_headers = ( 'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language' => 'en-GB,en;q=0.8', ); open …

2 html parsing web-crawler

0

任何Chrome扩展程序或插件都可以自动保存查看的网页？

我正在寻找一个软件或浏览器扩展程序（最好使用Chrome），它可以保存我在本地自动查看的所有网页。据我所知，有一个名为ScrapBook的Firefox，但在版本60之后不支持FireFox。

1 google-chrome web-crawler extension

2

抓取网络的“智能”方式[关闭]

我有一个项目，我必须抓取网络 lyrics，我正在实施 depth-first search 我正在列表中创建一个数据库（其中包含嵌套列表，稍后将保存在文件中）。我的想法是获取网站的HTML内容并将其保存在文件中，然后从中解析出歌词。但问题是它很慢而且我是不必要的页面（广告链接）是否有任何解决方案或“更好”是实施机器人？

-1 python database web-crawler bots

Questions tagged «web-crawler»