抓取网络的“智能”方式[关闭]


-1

我有一个项目,我必须抓取网络 lyrics,我正在实施 depth-first search 我正在列表中创建一个数据库(其中包含嵌套列表,稍后将保存在文件中)。我的想法是获取网站的HTML内容并将其保存在文件中,然后从中解析出歌词。但问题是它很慢而且我是不必要的页面(广告链接)是否有任何解决方案或“更好”是实施机器人?

Answers:


1

要提供具体建议,我们必须查看您的代码。但是,HTML解析是一个非常困难的问题;一定要使用现有的解析库,不要尝试创建自己的解析库。

通常,最好使用广度优先搜索而不是深度优先来实现Web爬网程序。深度优先搜索通常会对同一个域和路径进行多次调用;这可以被网站检测到,您的抓取工具可能会受到限制甚至被阻止。广度优先爬虫避免这种情况,并有更多的优化机会;例如,识别出两个站点是彼此的副本,并放弃了较慢的站点。


0

歌词通常是TXT,而广告则不是,因此您可以将搜索限制为文本。这方面的负面影响是你肯定会错过一些HTML歌词。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.