8 一个主要的缺点curl是,越来越多的网页的主要内容是由在初始HTTP响应之后发生的JavaScript AJAX响应绘制的。curl永远不会选择此后涂内容。 因此,为了从命令行获取这些类型的网页,我被简化为用Ruby编写脚本,这些脚本驱动SeleniumRC启动Firefox实例,然后在这些AJAX调用完成后返回源HTML。 对于此类问题,使用精简的命令行解决方案会更好。有人知道吗? wget http html curl selenium — 担 source 没有人提出任何建议。在这里,有人在使用curl自动化Web应用程序中的某些任务方面有经验吗?,但是这个问题并不是专门针对抓取JavaScript的问题。 — 吉尔斯(Gilles)'所以
2 我刚开始使用Java Selenium 2中的WebDriver。有一个名为HtmlUnitDriver的驱动程序,该驱动程序完全支持JavaScript,但不会启动实际的浏览器。 这不是一个简单的解决方案,但确实可以完成工作。 我设计了从命令行运行的代码,并将Web数据保存到文件中。 — 迈克尔·甘茨 source
2 你考虑过沃特吗? http://watir.com/ 添加软件包后,您可以将其作为独立文件运行,也可以从irb之后逐行运行include 'watir-webdriver'。我发现它比的响应速度更快selenium-webdriver,但是没有测试记录GUI来帮助解决复杂的测试条件。 — 流氓领袖 source