为什么默认编码为ASCII时Python为什么打印unicode字符？

139

从Python 2.6 shell：

>>> import sys
>>> print sys.getdefaultencoding()
ascii
>>> print u'\xe9'
é
>>>

我希望在打印语句后出现一些乱码或错误，因为“é”字符不是ASCII的一部分，并且我未指定编码。我想我不明白ASCII是默认编码的意思。

编辑

我将编辑移至“ 答案”部分，并按建议接受。

— 迈克尔·埃科卡
source

6

如果您可以将编辑内容转换为答案并接受它，那就太好了。

— 墨卡托

2

印刷'\xe9'中配置用于终端UTF-8将不打印é。它会打印一个替换字符（通常是一个问号），因为\xe9它不是有效的UTF-8序列（它丢失了两个字节，该字节应在前导字节之后）。当然，它肯定不会被解释为Latin-1。

— 马丁·彼得斯

2

@MartijnPieters我怀疑您可能浏览了我指定在我输出\xe9到print 时将终端设置为在ISO-8859-1（latin1）中进行解码的部分é。

— Michael Ekoka 2014年

2

啊，是的，我确实错过了那部分。终端的配置与外壳不同。检查一下

— 马丁·皮特斯

我略过了答案，但实际上，我有不带python 2.7 u前缀的字符串。为什么那一个仍然被当作unicode处理？（我的sys.getdefaultencoding（）是ascii）

— dtc

104

多亏各方面的答复，我认为我们可以做出一个解释。

通过尝试打印unicode字符串u'\ xe9'，Python隐式尝试使用当前存储在sys.stdout.encoding中的编码方案对该字符串进行编码。Python实际上是从启动它的环境中选取此设置的。如果它无法从环境中找到合适的编码，则只有它才能恢复为其默认值 ASCII。

例如，我使用bash shell，其编码默认为UTF-8。如果我从中启动Python，它将启动并使用该设置：

$ python

>>> import sys
>>> print sys.stdout.encoding
UTF-8

让我们暂时退出Python shell，并使用一些伪造的编码设置bash的环境：

$ export LC_CTYPE=klingon
# we should get some error message here, just ignore it.

然后再次启动python shell并确认它确实恢复为默认的ascii编码。

$ python

>>> import sys
>>> print sys.stdout.encoding
ANSI_X3.4-1968

答对了！

如果现在尝试在ascii之外输出一些Unicode字符，则应该会收到一条不错的错误消息

>>> print u'\xe9'
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' 
in position 0: ordinal not in range(128)

让我们退出Python并丢弃bash shell。

现在，我们将观察Python输出字符串之后发生的情况。为此，我们首先在图形终端（我使用Gnome Terminal）中启动bash shell，然后将终端设置为使用ISO-8859-1 aka latin-1解码输出（图形终端通常可以选择设置字符）在其下拉菜单之一中编码）。请注意，这不会更改实际shell环境的编码，仅会更改终端本身将解码给定输出的方式，就像Web浏览器一样。因此，您可以独立于外壳环境而更改终端的编码。然后让我们从外壳启动Python，并验证sys.stdout.encoding是否设置为外壳环境的编码（对我来说是UTF-8）：

$ python

>>> import sys

>>> print sys.stdout.encoding
UTF-8

>>> print '\xe9' # (1)
é
>>> print u'\xe9' # (2)
Ã©
>>> print u'\xe9'.encode('latin-1') # (3)
é
>>>

（1）python按原样输出二进制字符串，终端将其接收并尝试将其值与latin-1字符映射进行匹配。在latin-1中，0xe9或233产生字符“é”，这就是终端显示的内容。

（2）python尝试使用sys.stdout.encoding中当前设置的任何方案对Unicode字符串进行隐式编码，在本例中为“ UTF-8”。经过UTF-8编码后，生成的二进制字符串为'\ xc3 \ xa9'（请参阅后面的说明）。终端按原样接收流，并尝试使用latin-1解码0xc3a9，但是latin-1从0到255，因此，一次仅解码1个字节的流。0xc3a9为2个字节长，因此latin-1解码器将其解释为0xc3（195）和0xa9（169），并产生2个字符：Ã和©。

（3）python使用latin-1方案对unicode代码点u'\ xe9'（233）进行编码。原来latin-1代码点的范围是0-255，并指向该范围内与Unicode完全相同的字符。因此，以latin-1编码时，该范围内的Unicode代码点将产生相同的值。因此，以latin-1编码的u'\ xe9'（233）也将产生二进制字符串'\ xe9'。终端接收到该值，并尝试在latin-1字符映射上进行匹配。就像情况（1）一样，它会产生“é”，这就是显示的内容。

现在，从下拉菜单中将终端的编码设置更改为UTF-8（就像您将更改Web浏览器的编码设置一样）。无需停止Python或重新启动Shell。终端的编码现在与Python匹配。让我们再次尝试打印：

>>> print '\xe9' # (4)

>>> print u'\xe9' # (5)
é
>>> print u'\xe9'.encode('latin-1') # (6)

>>>

（4）python 按原样输出二进制字符串。终端尝试使用UTF-8解码该流。但是UTF-8无法理解值0xe9（请参阅后面的说明），因此无法将其转换为unicode代码点。找不到代码点，没有打印字符。

（5）python尝试使用sys.stdout.encoding中的任何内容隐式编码Unicode字符串。仍然是“ UTF-8”。生成的二进制字符串为“ \ xc3 \ xa9”。终端接收流，并尝试使用UTF-8解码0xc3a9。它会产生回码值0xe9（233），该值在Unicode字符映射表上指向符号“é”。终端显示“é”。

（6）python使用latin-1编码unicode字符串，它产生一个具有相同值'\ xe9'的二进制字符串。同样，对于终端，这与情况（4）几乎相同。

结论：-Python将非Unicode字符串作为原始数据输出，而不考虑其默认编码。如果终端的当前编码与数据匹配，则终端恰好显示它们。-Python使用sys.stdout.encoding中指定的方案对Unicode字符串进行编码后输出。-Python从Shell的环境中获取该设置。-终端根据其自身的编码设置显示输出。-终端的编码独立于外壳的编码。

有关Unicode，UTF-8和latin-1的更多详细信息：

Unicode基本上是一个字符表，其中按常规分配了一些键（代码点）以指向某些符号。例如，根据约定，已确定键0xe9（233）是指向符号'é'的值。ASCII和Unicode使用相同的代码点（从0到127），latin-1和Unicode使用的代码点也从0到255。也就是说，0x41指向ASCII，latin-1和Unicode中的“ A”，0xc8指向ASCII中的“Ü” latin-1和Unicode，0xe9指向latin-1和Unicode中的'é'。

在使用电子设备时，Unicode代码点需要一种有效的方式以电子方式表示。这就是编码方案。存在各种Unicode编码方案（utf7，UTF-8，UTF-16，UTF-32）。最直观，最直接的编码方法是简单地使用Unicode映射中的代码点值作为其电子形式的值，但是Unicode当前有超过一百万个代码点，这意味着其中一些代码点需要3个字节表达。为了有效地处理文本，一对一的映射将是不切实际的，因为它将要求所有代码点都存储在完全相同的空间中，每个字符至少要占用3个字节，而不管它们的实际需要如何。

大多数编码方案在空间要求上都有缺点，最经济的方案不能覆盖所有unicode码点，例如ascii仅覆盖前128个，而latin-1覆盖前256个。这是浪费的，因为即使对于常见的“便宜”字符，它们也需要更多的字节。例如，UTF-16每个字符至少使用2个字节，包括在ASCII范围内的字符（“ B”为65，在UTF-16中仍需要2个字节的存储空间）。UTF-32更加浪费，因为它将所有字符存储在4个字节中。

UTF-8恰好巧妙地解决了这一难题，该方案能够存储带有可变数量字节空间的代码点。作为其编码策略的一部分，UTF-8在代码点上附加标志位，这些标志位指示（可能是解码器）其空间要求和边界。

Unicode编码点在ASCII范围（0-127）中的UTF-8编码：

0xxx xxxx  (in binary)

x表示在编码过程中为“存储”代码点保留的实际空间
前导0是一个标志，向UTF-8解码器指示此代码点仅需要1个字节。
编码后，UTF-8不会在该特定范围内更改代码点的值（即，以UTF-8编码的65也是65）。考虑到Unicode和ASCII在相同范围内也兼容，因此附带地使UTF-8和ASCII在该范围内也兼容。

例如，“ B”的Unicode代码点是“ 0x42”或二进制的0100 0010（正如我们所说的，在ASCII中是相同的）。用UTF-8编码后，它变为：

0xxx xxxx  <-- UTF-8 encoding for Unicode code points 0 to 127
*100 0010  <-- Unicode code point 0x42
0100 0010  <-- UTF-8 encoded (exactly the same)

127以上的Unicode代码点的UTF-8编码（非ascii）：

110x xxxx 10xx xxxx            <-- (from 128 to 2047)
1110 xxxx 10xx xxxx 10xx xxxx  <-- (from 2048 to 65535)

前导比特“ 110”向UTF-8解码器指示以2个字节编码的代码点的开始，而“ 1110”指示3个字节，11110将指示4个字节，依此类推。
内部的“ 10”标志位用于表示内部字节的开始。
再次，x标记编码后存储Unicode代码点值的空间。

例如，“é” Unicode代码点为0xe9（233）。

1110 1001    <-- 0xe9

当UTF-8对该值进行编码时，它确定该值大于127且小于2048，因此应以2个字节进行编码：

110x xxxx 10xx xxxx   <-- UTF-8 encoding for Unicode 128-2047
***0 0011 **10 1001   <-- 0xe9
1100 0011 1010 1001   <-- 'é' after UTF-8 encoding
C    3    A    9

UTF-8编码之后的0xe9 Unicode代码指向变为0xc3a9。终端接收的确切方式。如果将您的终端设置为使用latin-1（一种非unicode遗留编码）对字符串进行解码，则会看到Ã©，因为恰好发生在latin-1中的0xc3指向Ã，而0xa9则指向©。

— 迈克尔·埃科卡
source

6

很好的解释。现在我了解UTF-8了！

— 医生编码

2

好的，我在10秒钟内阅读了您的整个帖子。它说：“ Python在编码方面很烂。”

— 安德鲁

很好的解释。你能解决这个问题吗？

— Maggyero

26

将Unicode字符打印到stdout时，sys.stdout.encoding使用。假定包含一个非Unicode字符，sys.stdout.encoding并将其发送到终端。在我的系统上（Python 2）：

>>> import unicodedata as ud
>>> import sys
>>> sys.stdout.encoding
'cp437'
>>> ud.name(u'\xe9') # U+00E9 Unicode codepoint
'LATIN SMALL LETTER E WITH ACUTE'
>>> ud.name('\xe9'.decode('cp437')) 
'GREEK CAPITAL LETTER THETA'
>>> '\xe9'.decode('cp437') # byte E9 decoded using code page 437 is U+0398.
u'\u0398'
>>> ud.name(u'\u0398')
'GREEK CAPITAL LETTER THETA'
>>> print u'\xe9' # Unicode is encoded to CP437 correctly
é
>>> print '\xe9'  # Byte is just sent to terminal and assumed to be CP437.
Θ

sys.getdefaultencoding() 仅在Python没有其他选项时使用。

请注意，Python 3.6或更高版本会忽略Windows上的编码，并使用Unicode API将Unicode写入终端。没有UnicodeEncodeError警告，并且如果字体支持，则显示正确的字符。即使字体不支持，仍可以将字符从终端剪切到带有支持字体的应用程序中，这是正确的。升级！

— 马克·托洛宁
source

8

Python REPL尝试从您的环境中选择要使用的编码。如果它发现一个理智的东西，那就一切正常。在无法弄清楚到底是什么情况时，它才会出错。

>>> print sys.stdout.encoding
UTF-8

— 伊格纳西奥·巴斯克斯（Ignacio Vazquez-Abrams）
source

3

只是出于好奇，我如何将sys.stdout.encoding更改为ascii？

— Michael Ekoka 2010年

2

@TankorSmash我要TypeError: readonly attribute上2.7.2

— Kos

4

您已经通过输入一个明确的Unicode字符串指定了一种编码。比较不使用u前缀的结果。

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> '\xe9'
'\xe9'
>>> u'\xe9'
u'\xe9'
>>> print u'\xe9'
é
>>> print '\xe9'

>>>

在这种情况下，\xe9Python会采用您的默认编码（Ascii），从而将...打印为空白。

— 马克·拉沙科夫
source

1

所以，如果我的理解是这样，我打印出Unicode字符串（代码点），蟒蛇假定我想，而不是只是想给我什么在UTF-8编码输出，可以一直在ASCII码？

— Michael Ekoka 2010年

1

@mike：AFAIK你所说的是正确的。如果它确实打印出Unicode字符但编码为ASCII，则所有内容都会出现乱码，并且可能所有初学者都会问：“为什么我不能打印出Unicode文本？”

— Mark Rushakoff 2010年

2

谢谢。我实际上是那些初学者之一，但是来自对unicode有一定了解的人，这就是为什么这种行为使我有些失望。

— Michael Ekoka 2010年

3

R.，不正确，因为'\ xe9'不在ascii字符集中。非Unicode字符串使用sys.stdout.encoding打印，Unicode字符串在打印之前被编码为sys.stdout.encoding。

— Mark Tolonen'4

0

这个对我有用：

import sys
stdin, stdout = sys.stdin, sys.stdout
reload(sys)
sys.stdin, sys.stdout = stdin, stdout
sys.setdefaultencoding('utf-8')

— 用户名
source

1

廉价的肮脏的骇客将不可避免地破坏其他东西。正确的方法并不难！

— 克里斯·约翰逊

0

根据Python默认/隐式字符串编码和转换：

当print荷兰国际集团unicode，它的encoded用<file>.encoding。
- 当encoding未设置时，会将unicode隐式转换为str（因为该的编解码器为sys.getdefaultencoding()，即ascii任何国家字符都会导致UnicodeEncodeError）
- 对于标准流，encoding是从环境推断的。通常是设置fot tty流（从终端的语言环境设置），但可能没有为管道设置
  - 因此print u'\xe9'，当输出到终端时，a 可能会成功，而如果将其重定向到，则a可能会失败。一个解决方案是encode()在print输入前对具有所需编码的字符串进行处理。
当print荷兰国际集团str，由于是字节被发送到流中。终端显示的字形将取决于其区域设置。

— ivan_pozdeev
source