最近,我了解到,使用正则表达式来解析网站的HTML以获取所需的数据并不是最佳方法。
所以我的问题很简单:那么,什么/最好/最有效且通常稳定的方式来获取此数据?
我应该注意:
- 没有API
- 没有其他可以从中获取数据的来源(没有数据库,提要等)
- 无法访问源文件。(来自公共网站的数据)
- 假设数据是普通文本,显示在html页面的表格中
我目前在我的项目中使用python,但是独立于语言的解决方案/提示会很好。
附带提出一个问题:当通过Ajax调用构建网页时,您将如何处理?
编辑:
在HTML解析的情况下,我知道没有实际的稳定方法来获取数据。页面更改后,解析器就完成了。在这种情况下,我的意思是:一种有效的页面解析方法,只要页面没有变化,它总是可以为我提供相同的结果(显然是针对同一组数据)。