Unicode和编码是完全不同的,无关的东西。
统一码
为每个字符分配一个数字ID:
因此,Unicode将数字0x41分配给A,将0xE1分配给á,将0x414分配给Д。
即使是我使用的小箭头也有其Unicode数字,即0x2192。甚至表情符号都有其Unicode数字,😂是0x1F602。
您可以在此表中查找所有字符的Unicode数字。特别是,你可以找到上面的前三个字符这里,箭头在这里,和表情符号在这里。
这些由Unicode分配给所有字符的数字称为代码点。
所有这些的目的是提供一种明确地引用每个字符的方法。例如,如果我在谈论😂,而不是说“你知道,这笑着哭的表情含泪”,我可以说Unicode代码点0x1F602。比较容易,对吧?
请注意,Unicode代码点通常使用前导格式U+
,然后将十六进制数字值填充为至少4位数字。因此,以上示例为U + 0041,U + 00E1,U + 0414,U + 2192,U + 1F602。
Unicode代码点的范围从U + 0000到U + 10FFFF。那是1,114,112数字。这些数字中的2048个用于代理,因此,剩下1,112,064。这意味着,Unicode可以为1,112,064个不同的字符分配唯一的ID(代码点)。尚未将所有这些代码点都分配给一个字符,并且Unicode不断扩展(例如,当引入新的表情符号时)。
要记住的重要一点是,所有Unicode所做的就是为每个字符分配一个称为代码点的数字ID,以便于进行明确的引用。
编码方式
将字符映射到位模式。
这些位模式用于表示计算机内存或磁盘上的字符。
有许多不同的编码覆盖了字符的不同子集。在说英语的世界中,最常见的编码如下:
将128个字符(代码点U + 0000到U + 007F)映射到长度为7的位模式。
例:
您可以在此表中看到所有映射。
将191个字符(代码点U + 0020到U + 007E和U + 00A0到U + 00FF)映射到长度为8的位模式。
例:
- a→01100001(0x61)
- á→11100001(0xE1)
您可以在此表中看到所有映射。
将1,112,064个字符(所有现有的Unicode代码点)映射到长度为8、16、24或32位(即1、2、3或4个字节)的位模式。
例:
- a→01100001(0x61)
- á→11000011 10100001(0xC3 0xA1)
- ≠→11100010 10001001 10100000(0xE2 0x89 0xA0)
- 😂→11110000 10011111 10011000 10000010(0xF0 0x9F 0x98 0x82)
UTF-8将字符编码为位字符串的方式在此处得到了很好的描述。
Unicode和编码
通过上面的示例,可以清楚地了解Unicode是如何有用的。
例如,如果我是Latin-1,并且想解释一下á的编码,则无需说:
“我用aigu(或您将其称为上升条)编码为11100001”
但是我只能说:
“我将U + 00E1编码为11100001”
如果我是UTF-8,我可以说:
“我又将U + 00E1编码为11000011 10100001”
每个人都清楚知道我们指的是哪个角色。
现在到经常出现的混乱
的确,如果将编码的位模式解释为二进制数,则有时与此字符的Unicode代码点相同。
例如:
- ASCII编码一个为1100001,您可以解释为十六进制数0x61,和的Unicode代码点一个是U + 0061。
- Latin-1将á编码为11100001,可以将其解释为十六进制数字0xE1,而á的Unicode代码点是U + 00E1。
当然,为了方便起见,已经对此进行了安排。但是您应该将其视为纯粹的巧合。用于表示内存中字符的位模式与该字符的Unicode代码点没有任何关联。
甚至没人说您必须将11100001之类的字符串解释为二进制数。只需将其视为Latin-1用来编码字符á的位序列即可。
回到您的问题
您的Python解释器使用的编码为UTF-8。
这是您的示例中发生的事情:
例子1
以下代码以UTF-8编码字符á。这将产生位字符串11000011 10100001,该位字符串将保存在变量中a
。
>>> a = 'á'
当您查看的值时a
,其内容11000011 10100001的格式设置为十六进制数字0xC3 0xA1,并输出为'\xc3\xa1'
:
>>> a
'\xc3\xa1'
例子2
下面的代码将á的Unicode代码点U + 00E1保存在变量中ua
(我们不知道Python内部使用哪种数据格式在内存中表示代码点U + 00E1,这对我们来说并不重要):
>>> ua = u'á'
当您查看的值时ua
,Python会告诉您它包含代码点U + 00E1:
>>> ua
u'\xe1'
例子3
以下代码使用UTF-8对Unicode代码点U + 00E1(表示字符á)进行编码,结果得到位模式1100001110100001。同样,对于输出,该位模式也表示为十六进制数字0xC3 0xA1:
>>> ua.encode('utf-8')
'\xc3\xa1'
例子4
下面的代码使用Latin-1对Unicode代码点U + 00E1(表示字符á)进行编码,从而得到位模式11100001。对于输出,该位模式表示为十六进制数字0xE1,巧合的是,其与初始字符相同。码点U + 00E1:
>>> ua.encode('latin1')
'\xe1'
Unicode对象ua
和Latin-1编码之间没有关系。á的代码点为U + 00E1,而á的Latin-1编码为0xE1(如果将编码的位模式解释为二进制数)纯属巧合。
unicode
,它只是Unicode字符的抽象;unicode
可以通过str
某种编码(例如utf-8
)转换为。