5
以稳定高效的方式从网页获取数据
最近,我了解到,使用正则表达式来解析网站的HTML以获取所需的数据并不是最佳方法。 所以我的问题很简单:那么,什么/最好/最有效且通常稳定的方式来获取此数据? 我应该注意: 没有API 没有其他可以从中获取数据的来源(没有数据库,提要等) 无法访问源文件。(来自公共网站的数据) 假设数据是普通文本,显示在html页面的表格中 我目前在我的项目中使用python,但是独立于语言的解决方案/提示会很好。 附带提出一个问题:当通过Ajax调用构建网页时,您将如何处理? 编辑: 在HTML解析的情况下,我知道没有实际的稳定方法来获取数据。页面更改后,解析器就完成了。在这种情况下,我的意思是:一种有效的页面解析方法,只要页面没有变化,它总是可以为我提供相同的结果(显然是针对同一组数据)。