Python请求库重定向新网址


95

我一直在浏览Python Requests文档,但是看不到我要实现的功能。

在我的脚本中,我正在设置allow_redirects=True

我想知道页面是否已重定向到其他内容,新的URL是什么。

例如,如果起始URL为: www.google.com/redirect

最终的URL是 www.google.co.uk/redirected

我如何获得该URL?


查看此答案以进行处理 urllib2
horcrux

Answers:


156

您正在寻找请求历史记录

response.history属性是导致最终到达网址的响应列表,可以在中找到response.url

response = requests.get(someurl)
if response.history:
    print("Request was redirected")
    for resp in response.history:
        print(resp.status_code, resp.url)
    print("Final destination:")
    print(response.status_code, response.url)
else:
    print("Request was not redirected")

演示:

>>> import requests
>>> response = requests.get('http://httpbin.org/redirect/3')
>>> response.history
(<Response [302]>, <Response [302]>, <Response [302]>)
>>> for resp in response.history:
...     print(resp.status_code, resp.url)
... 
302 http://httpbin.org/redirect/3
302 http://httpbin.org/redirect/2
302 http://httpbin.org/redirect/1
>>> print(response.status_code, response.url)
200 http://httpbin.org/get

67

这回答了一个稍有不同的问题,但是由于我自己一直坚持这个问题,所以我希望它对其他人可能有用。

如果要使用allow_redirects=False并直接到达第一个重定向对象,而不是遵循它们的链,而只想直接从302响应对象中获取重定向位置,则r.url则将无法使用。相反,它是“ Location”标头:

r = requests.get('http://github.com/', allow_redirects=False)
r.status_code  # 302
r.url  # http://github.com, not https.
r.headers['Location']  # https://github.com/ -- the redirect destination

谢谢-这使我的URL引用脚本(具有数千个url)提高了几秒钟。
ahinkle

你知道发生了r.next什么吗?我认为应该包含PreparedRequest指向重定向URL 的指向,但事实并非如此……
Elias Strehle

36

该文档具有以下内容:https: //requests.readthedocs.io/zh/master/user/quickstart/#redirection-and-history

import requests

r = requests.get('http://www.github.com')
r.url
#returns https://www.github.com instead of the http page you asked for 

32

我觉得requests.head代替requests.get会更安全的处理URL重定向时调用,检查GitHub的问题在这里

r = requests.head(url, allow_redirects=True)
print(r.url)

1
这应该是公认的答案。简短而甜美。
Volatil3'4

5
@ Volatil3:并非所有服务器都以与GET相同的方式响应HEAD请求。
Blender

9

对于python3.5,您可以使用以下代码:

import urllib.request
res = urllib.request.urlopen(starturl)
finalurl = res.geturl()
print(finalurl)

这是Python 3.5的正确答案,我花了一段时间才找到,谢谢
jjj
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.