最好使用curl或wget重定向页面后,我需要获取最终URL。
例如,http://google.com可以重定向到http://www.google.com。
内容很容易获得(例如curl --max-redirs 10 http://google.com -L
),但是我只对最终URL(在前一种情况下为http://www.google.com)感兴趣。
仅使用Linux内置工具有什么办法做到这一点?(仅命令行)
最好使用curl或wget重定向页面后,我需要获取最终URL。
例如,http://google.com可以重定向到http://www.google.com。
内容很容易获得(例如curl --max-redirs 10 http://google.com -L
),但是我只对最终URL(在前一种情况下为http://www.google.com)感兴趣。
仅使用Linux内置工具有什么办法做到这一点?(仅命令行)
Answers:
curl
的-w
选项和sub变量url_effective
就是您要寻找的。
就像是
curl -Ls -o /dev/null -w %{url_effective} http://google.com
更多信息
-L关注重定向 -s静默模式。什么都不输出 -o FILE将输出写到<file>而不是stdout -w FORMAT完成后输出什么
更多
您可能还希望添加-I
(这是一个大写字母i
),这将使该命令不下载任何“ body”,但是它随后还使用HEAD方法,这不是要包含的问题,并且可能会更改服务器的功能。有时,即使服务器对GET的响应很好,服务器对HEAD的响应也不好。
:-)
-I
否则它将实际下载文件。
curl -A ...
才能重定向到预期的位置。
谢谢,这对我有帮助。我做了一些改进,并将其包装在辅助脚本“ finalurl”中:
#!/bin/bash
curl $1 -s -L -I -o /dev/null -w '%{url_effective}'
-o
输出到 /dev/null
-I
实际不下载,只需找到最终URL-s
静音模式,无进度条这样就可以从其他脚本中调用命令,如下所示:
echo `finalurl http://someurl/`
finalurl() { curl --silent --location --head --output /dev/null --write-out '%{url_effective}' -- "$@"; }
作为另一种选择:
$ curl -i http://google.com
HTTP/1.1 301 Moved Permanently
Location: http://www.google.com/
Content-Type: text/html; charset=UTF-8
Date: Sat, 19 Jun 2010 04:15:10 GMT
Expires: Mon, 19 Jul 2010 04:15:10 GMT
Cache-Control: public, max-age=2592000
Server: gws
Content-Length: 219
X-XSS-Protection: 1; mode=block
<HTML><HEAD><meta http-equiv="content-type" content="text/html;charset=utf-8">
<TITLE>301 Moved</TITLE></HEAD><BODY>
<H1>301 Moved</H1>
The document has moved
<A HREF="http://www.google.com/">here</A>.
</BODY></HTML>
但这并没有超过第一个。
您通常可以使用wget进行此操作。 wget --content-disposition
如果您添加“ url”,那么您-O /dev/null
实际上将不会保存文件。
wget -O /dev/null --content-disposition example.com
-O /dev/null
为仅-O-
。更好:wget -O- --content-disposition example.com
的参数-L (--location)
和-I (--head)
仍然做不必要HEAD-请求发送给位置的URL。
如果您确定最多只能有一个重定向,则最好禁用跟随位置并使用卷曲变量%{redirect_url}。
此代码仅对指定的URL执行一个HEAD请求,并从location-header中获取redirect_url:
curl --head --silent --write-out "%{redirect_url}\n" --output /dev/null "https://""goo.gl/QeJeQ4"
all_videos_link.txt
-goo.gl + bit.ly的50个链接,这些链接重定向到youtube
time while read -r line; do
curl -kIsL -w "%{url_effective}\n" -o /dev/null $line
done < all_videos_link.txt
结果:
real 1m40.832s
user 0m9.266s
sys 0m15.375s
time while read -r line; do
curl -kIs -w "%{redirect_url}\n" -o /dev/null $line
done < all_videos_link.txt
结果:
real 0m51.037s
user 0m5.297s
sys 0m8.094s
我不确定如何使用curl,但是libwww-perl安装了GET别名。
$ GET -S -d -e http://google.com
GET http://google.com --> 301 Moved Permanently
GET http://www.google.com/ --> 302 Found
GET http://www.google.ca/ --> 200 OK
Cache-Control: private, max-age=0
Connection: close
Date: Sat, 19 Jun 2010 04:11:01 GMT
Server: gws
Content-Type: text/html; charset=ISO-8859-1
Expires: -1
Client-Date: Sat, 19 Jun 2010 04:11:01 GMT
Client-Peer: 74.125.155.105:80
Client-Response-Num: 1
Set-Cookie: PREF=ID=a1925ca9f8af11b9:TM=1276920661:LM=1276920661:S=ULFrHqOiFDDzDVFB; expires=Mon, 18-Jun-2012 04:11:01 GMT; path=/; domain=.google.ca
Title: Google
X-XSS-Protection: 1; mode=block
你可以试一下吗?
#!/bin/bash
LOCATION=`curl -I 'http://your-domain.com/url/redirect?r=something&a=values-VALUES_FILES&e=zip' | perl -n -e '/^Location: (.*)$/ && print "$1\n"'`
echo "$LOCATION"
注意:当您执行命令curl -I http://your-domain.com时,必须在命令中使用单引号,例如 curl -I 'http://your-domain.com'