让JSON对象接受字节或让urlopen输出字符串


177

使用Python 3,我需要从URL请求json文档。

response = urllib.request.urlopen(request)

response对象是带有readreadline方法的类似文件的对象。通常,可以使用在文本模式下打开的文件来创建JSON对象。

obj = json.load(fp)

我想做的是:

obj = json.load(response)

但是,此方法不起作用,因为urlopen以二进制模式返回文件对象。

解决方法当然是:

str_response = response.read().decode('utf-8')
obj = json.loads(str_response)

但这感觉不好...

有没有更好的方法可以将字节文件对象转换为字符串文件对象?还是我缺少任何一个参数urlopenjson.load给出编码?


2
我认为您那里有一个错字,“ readall”应该是“ read”?
鲍勃·约普拉特

@BobYoplait我同意。
CaptainNemo

Answers:


79

HTTP发送字节。如果所讨论的资源是文本,则通常通过Content-Type HTTP标头或其他机制(RFC,HTML meta http-equiv等)指定字符编码。

urllib 应该知道如何将字节编码为字符串,但这太幼稚了-这是一个功能强大且功能强大的非Pythonic库。

深入Python 3提供了有关情况的概述。

您的“变通方法”很好-尽管感觉不对,但这是正确的方法。


6
这可能是做到这一点的“正确”方法,但是如果我可以撤销关于Python 3的一件事,那就是字节/字符串废话。您可能会认为内置库函数至少会知道如何处理其他内置库函数。我们使用python的部分原因是简单直观的语法。这种变化打破了整个地方。
ThatAintWorking 2014年

4
签出“请求”库 -它可以自动为您处理此类事情。
offby1

2
内置库函数不是需要“知道”如何处理其他函数的情况。JSON被定义为对象的UTF-8表示形式,因此它无法神奇地解码它不知道其编码的字节。我确实同意urlopen应该能够对字节本身进行解码,因为它知道编码。无论如何,我已经发布了Python标准库解决方案作为答案-您可以使用该codecs模块对字节进行流式解码。
jbg

1
@ThatAintWorking:我不同意。尽管显式地必须管理字节和字符串之间的差异是一件令人头疼的事,但让语言为您进行一些隐式转换却要麻烦得多。隐式字节<->字符串转换是许多错误的根源,Python3在指出缺陷时非常有用。但是我同意图书馆在这方面还有改进的余地。
EvertW '17

我认为@EvertW失败首先是将字符串强制为unicode。
ThatAintWorking
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.