Answers:
您可以使用wget
命令下载页面并将其读取为变量,如下所示:
content=$(wget google.com -q -O -)
echo $content
我们使用的-O
选项wget
允许我们指定wget
将页面内容转储到的文件的名称。我们指定-
将转储放入标准输出并将其收集到变量中content
。您可以添加-q
安静选项以关闭wget输出。
您还可以使用curl命令:
content=$(curl -L google.com)
echo $content
我们需要使用该-L
选项,因为我们请求的页面可能已经移动。在这种情况下,我们需要从新位置获取页面。该-L
或--location
选项帮助我们与此有关。
src
正确元素的属性,然后下载该页面。如果安装tq,则此命令应执行以下操作:curl -s http://ww1.watchop.io/manga2/read/one-piece/1/4 | tq -j -a src "#imgholder a img" | xargs wget
convert_links = on
与-O-
选择。它因错误而失败-k can be used together with -O only if outputting to a regular file.
。是预期的吗?
如果您安装了LWP,它将提供一个简单的名为“ GET ” 的二进制文件。
$ GET http://example.com <!DOCTYPE HTML PUBLIC“-// W3C // DTD HTML 4.01 Transitional // EN”> <HTML> <头> <META http-equiv =“ Content-Type” content =“ text / html; charset = utf-8”> <TITLE>示例网页</ TITLE> </ HEAD> <身体> <p>您通过输入“ example.com”访问了此网页, “ example.net”,“ example.org” 或“ example.edu” 进入您的网络浏览器。</ p> <p>这些域名保留供文档使用,不可用 进行注册。参见<a href="http://www.rfc-editor.org/rfc/rfc2606.txt"> RFC 2606 </a>,第3节。</ p> </ BODY> </ HTML>
wget -O-
,curl
和lynx -source
行为类似。
您可以使用curl
或wget
检索原始数据,也可以使用w3m -dump
网页的漂亮文字表示。
$ foo=$(w3m -dump http://www.example.com/); echo $foo
You have reached this web page by typing "example.com", "example.net","example.org" or "example.edu" into your web browser. These domain names are reserved for use in documentation and are not available for registration. See RFC 2606, Section 3.