除了SeleniumRC之外,还有没有其他好的工具可以提取包含JavaScript后绘制内容的网页?


8

一个主要的缺点curl是,越来越多的网页的主要内容是由在初始HTTP响应之后发生的JavaScript AJAX响应绘制的。curl永远不会选择此后涂内容。

因此,为了从命令行获取这些类型的网页,我被简化为用Ruby编写脚本,这些脚本驱动SeleniumRC启动Firefox实例,然后在这些AJAX调用完成后返回源HTML。

对于此类问题,使用精简的命令行解决方案会更好。有人知道吗?


没有人提出任何建议。在这里,有人在使用curl自动化Web应用程序中的某些任务方面有经验吗?,但是这个问题并不是专门针对抓取JavaScript的问题。
吉尔斯(Gilles)'所以

Answers:


2

我刚开始使用Java Selenium 2中的WebDriver。有一个名为HtmlUnitDriver的驱动程序,该驱动程序完全支持JavaScript,但不会启动实际的浏览器。

这不是一个简单的解决方案,但确实可以完成工作。

我设计了从命令行运行的代码,并将Web数据保存到文件中。


2

你考虑过沃特吗?

http://watir.com/

添加软件包后,您可以将其作为独立文件运行,也可以从irb之后逐行运行include 'watir-webdriver'。我发现它比的响应速度更快selenium-webdriver,但是没有测试记录GUI来帮助解决复杂的测试条件。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.