2
抓取网络的“智能”方式[关闭]
我有一个项目,我必须抓取网络 lyrics,我正在实施 depth-first search 我正在列表中创建一个数据库(其中包含嵌套列表,稍后将保存在文件中)。我的想法是获取网站的HTML内容并将其保存在文件中,然后从中解析出歌词。但问题是它很慢而且我是不必要的页面(广告链接)是否有任何解决方案或“更好”是实施机器人?
数据的集合,通常将其组织成表以用于不同的数据对象。表通常由数据对象实例上的记录组成。