Answers:
要提供具体建议,我们必须查看您的代码。但是,HTML解析是一个非常困难的问题;一定要使用现有的解析库,不要尝试创建自己的解析库。
通常,最好使用广度优先搜索而不是深度优先来实现Web爬网程序。深度优先搜索通常会对同一个域和路径进行多次调用;这可以被网站检测到,您的抓取工具可能会受到限制甚至被阻止。广度优先爬虫避免这种情况,并有更多的优化机会;例如,识别出两个站点是彼此的副本,并放弃了较慢的站点。
歌词通常是TXT,而广告则不是,因此您可以将搜索限制为文本。这方面的负面影响是你肯定会错过一些HTML歌词。