我正在尝试从具有javascript和框架的网页上下载文档(pdf,tiff,图像)。例如:http://127.0.0.1/web/guest/en/websys/webArch/mainFrame.cgi
“ httrack --get-files”没有下载任何内容,您还有其他想法吗?另一个程序?我需要自己编写该程序吗?
非常感谢!
我正在尝试从具有javascript和框架的网页上下载文档(pdf,tiff,图像)。例如:http://127.0.0.1/web/guest/en/websys/webArch/mainFrame.cgi
“ httrack --get-files”没有下载任何内容,您还有其他想法吗?另一个程序?我需要自己编写该程序吗?
非常感谢!
Answers:
由于该URL以“ cgi”结尾,因此我猜想它正在服务器上运行CGI脚本,这意味着它可能正在等待其他数据。关于可以从何处获取此数据有两种选择
首先,其他数据可能来自您的登录会话。在wget的文档中查找--load-cookies
选项,以指定它应使用浏览器中的cookie文件(我计算机中的说明适用于旧的浏览器cookie文件格式)。
另一个选择是,它期待来自浏览器的POST数据。您需要弄清楚什么是表单变量和值,并使用wget --post-data
或--post-file
options 传递它们。