抓取网络的“智能”方式[关闭]

-1

我有一个项目，我必须抓取网络 lyrics，我正在实施 depth-first search 我正在列表中创建一个数据库（其中包含嵌套列表，稍后将保存在文件中）。我的想法是获取网站的HTML内容并将其保存在文件中，然后从中解析出歌词。但问题是它很慢而且我是不必要的页面（广告链接）是否有任何解决方案或“更好”是实施机器人？

— Puru
source

Answers:

要提供具体建议，我们必须查看您的代码。但是，HTML解析是一个非常困难的问题;一定要使用现有的解析库，不要尝试创建自己的解析库。

通常，最好使用广度优先搜索而不是深度优先来实现Web爬网程序。深度优先搜索通常会对同一个域和路径进行多次调用;这可以被网站检测到，您的抓取工具可能会受到限制甚至被阻止。广度优先爬虫避免这种情况，并有更多的优化机会;例如，识别出两个站点是彼此的副本，并放弃了较慢的站点。

— Dour High Arch
source

歌词通常是TXT，而广告则不是，因此您可以将搜索限制为文本。这方面的负面影响是你肯定会错过一些HTML歌词。

— DrMoishe Pippik
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.