MySQL中utf8mb4和utf8字符集有什么区别?


341

utf8mb4MySQL中的utf8字符集有什么区别?

我已经知道ASCIIUTF-8UTF-16UTF-32编码;但是我很想知道utf8mb4编码组与MySQL Server中定义的其他编码类型有什么区别。

使用utf8mb4而不是有什么特别的好处/提议utf8吗?

Answers:


391

UTF-8是可变长度编码。对于UTF-8,这意味着存储一个代码点需要1-4个字节。但是,MySQL的编码称为“ utf8”(别名为“ utf8mb3”),每个代码点最多只能存储三个字节。

因此,字符集“ utf8” /“ utf8mb3”不能存储所有Unicode代码点:它仅支持范围0x000到0xFFFF,这被称为“ 基本多语言平面 ”。另请参见Unicode编码比较

这是MySQL文档必须说的(同一页面的先前版本):

名为utf8 [/ utf8mb3]的字符集每个字符最多使用三个字节,并且仅包含BMP字符。从MySQL 5.5.3开始,utf8mb4字符集每个字符最多使用四个字节,支持补充字符:

  • 对于BMP字符,utf8 [/ utf8mb3]和utf8mb4具有相同的存储特征:相同的代码值,相同的编码,相同的长度。

  • 对于补充字符,utf8 [/ utf8mb3]根本无法存储该字符,而utf8mb4需要四个字节来存储它。由于utf8 [/ utf8mb3]根本无法存储字符,因此utf8 [/ utf8mb3]列中没有任何补充字符,并且在从较早版本的utf8 [/ utf8mb3]数据升级时,您无需担心转换字符或丢失数据的麻烦。 MySQL的。

因此,如果您希望您的列支持存储BMP之外的字符(并且通常希望这样做),例如emoji,请使用“ utf8mb4”。另请参阅实际使用中最常见的非BMP Unicode字符是什么?


10
到目前为止,我遇到的唯一需要“ utf8mb4”的案例是中文和表情。有一些晦涩的字母需要它。
里克·詹姆斯

10
如果用于将加密的密码和数据保留在数据库中,则还需要它。我使用正常的utf8格式将加密的密码保存在mysql中,这给我随机使用一些密码带来很多麻烦,并且很难调试,因此最终我尝试使用base64编码并临时解决了该问题。但是,现在我知道了原因。
Mojtaba Rezaeian

37
@idealidea加密的数据是二进制的,因此不应将二进制数据存储在varchar列中。:)
CodeCaster

8
@thomasrutter尝试使用(𡞰)字符以UTF-8保存。:)
502_Geek'Mar

2
@MojtabaRezaeian在密码算法中有点依赖-bcrypt2将产生ASCII。
Jasen


47

取自《MySQL 8.0参考手册》

  • utf8mb4Unicode字符集的UTF-8编码,每个字符使用1-4个字节

  • utf8mb3Unicode字符集的UTF-8编码,每个字符使用一到三个字节

目前,在MySQL utf8中,别名utf8mb3被弃用,并将在以后的MySQL版本中删除。届时utf8 将成为的参考 utf8mb4

因此,不管使用哪个别名,您都可以自觉地设置utf8mb4编码。

为了完成答案,我想在下面添加@WilliamEntriken的注释(也来自手册):

为避免对的含义含糊不清utf8,请考虑utf8mb4为字符集引用而不是明确指定utf8

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.