我们以前的程序员在表(Mysql)中设置了错误的排序规则。他使用拉丁文归类(应为UTF8)进行设置,现在我遇到了问题。每个带有中文和日文字符的记录都变成??? 字符。
是否可以更改排序规则并找回角色的细节?
我们以前的程序员在表(Mysql)中设置了错误的排序规则。他使用拉丁文归类(应为UTF8)进行设置,现在我遇到了问题。每个带有中文和日文字符的记录都变成??? 字符。
是否可以更改排序规则并找回角色的细节?
Answers:
更改数据库排序规则:
ALTER DATABASE <database_name> CHARACTER SET utf8 COLLATE utf8mb4_0900_ai_ci;
更改表排序规则:
ALTER TABLE <table_name> CONVERT TO CHARACTER SET utf8 COLLATE utf8mb4_0900_ai_ci;
更改列排序规则:
ALTER TABLE <table_name> MODIFY <column_name> VARCHAR(255) CHARACTER SET utf8 COLLATE utf8mb4_0900_ai_ci;
utf8mb4_0900_ai_ci
是什么意思?3 bytes -- utf8
4 bytes -- utf8mb4 (new)
v4.0 -- _unicode_
v5.20 -- _unicode_520_
v9.0 -- _0900_ (new)
_bin -- just compare the bits; don't consider case folding, accents, etc
_ci -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)
_bin -- simple, fast
_general_ci -- fails to compare multiple letters; eg ss=ß, somewhat fast
... -- slower
_0900_ -- (8.0) much faster because of a rewrite
更多信息:
CHARACTER SET utf8
将默认为默认值,utf8_general_ci
但您也可以ALTER DATABASE <database_name> CHARACTER SET utf8 COLLATE utf8_unicode_ci;
根据需要定义排序规则
create table testit(a varchar(1)); show create table testit \G drop table testit;
utf8_general_ci
; 如果要将其更改为utf8_unicode_ci
,则可以定义归类: ALTER TABLE <table_name> CONVERT TO CHARACTER SET utf8 COLLATE utf8_unicode_ci;
。正如@KCD所指出的,这在表上的工作与在数据库上的工作完全相同。
ALTER DATABASE <database_name> CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
。您应该对其他两个语句执行相同的操作。
以下是如何更改所有数据库/表/列的方法。运行这些查询,它们将输出将整个模式转换为utf8所需的所有后续查询。希望这可以帮助!
-更改数据库默认排序规则
SELECT DISTINCT concat('ALTER DATABASE `', TABLE_SCHEMA, '` CHARACTER SET utf8 COLLATE utf8_unicode_ci;')
from information_schema.tables
where TABLE_SCHEMA like 'database_name';
-更改表排序规则/字符集
SELECT concat('ALTER TABLE `', TABLE_SCHEMA, '`.`', table_name, '` CHARACTER SET utf8 COLLATE utf8_unicode_ci;')
from information_schema.tables
where TABLE_SCHEMA like 'database_name';
-更改列排序规则/字符集
SELECT concat('ALTER TABLE `', t1.TABLE_SCHEMA, '`.`', t1.table_name, '` MODIFY `', t1.column_name, '` ', t1.data_type , '(' , t1.CHARACTER_MAXIMUM_LENGTH , ')' , ' CHARACTER SET utf8 COLLATE utf8_unicode_ci;')
from information_schema.columns t1
where t1.TABLE_SCHEMA like 'database_name' and t1.COLLATION_NAME = 'old_charset_name';
请注意,在Mysql中,utf8
字符集只是实际UTF8字符集的子集。为了节省一个字节的存储空间,Mysql团队决定只存储三个字节的UTF8字符,而不是完整的四个字节。这意味着某些东亚语言和表情符号未得到完全支持。为确保可以存储所有UTF8字符,请使用utf8mb4
数据类型,然后在Mysql中使用utf8mb4_bin
或utf8mb4_general_ci
。
utf8mb4_unicode_ci
代替utf8mb4_general_ci
。见stackoverflow.com/questions/766809/...和drupal.stackexchange.com/questions/166405/...
除了David Whittaker发布的内容之外,我还创建了一个查询,该查询生成完整的表和将更改每个表的列alter语句。跑步可能是一个好主意
SET SESSION group_concat_max_len = 100000;
首先要确保您的小组比赛不会超过这里看到的很小的限制。
SELECT a.table_name, concat('ALTER TABLE ', a.table_schema, '.', a.table_name, ' DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_unicode_ci, ',
group_concat(distinct(concat(' MODIFY ', column_name, ' ', column_type, ' CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci ', if (is_nullable = 'NO', ' NOT', ''), ' NULL ',
if (COLUMN_DEFAULT is not null, CONCAT(' DEFAULT \'', COLUMN_DEFAULT, '\''), ''), if (EXTRA != '', CONCAT(' ', EXTRA), '')))), ';') as alter_statement
FROM information_schema.columns a
INNER JOIN INFORMATION_SCHEMA.TABLES b ON a.TABLE_CATALOG = b.TABLE_CATALOG
AND a.TABLE_SCHEMA = b.TABLE_SCHEMA
AND a.TABLE_NAME = b.TABLE_NAME
AND b.table_type != 'view'
WHERE a.table_schema = ? and (collation_name = 'latin1_swedish_ci' or collation_name = 'utf8mb4_general_ci')
GROUP BY table_name;
上一个答案之间的区别是它使用utf8而不是ut8mb4并使用t1.data_type和t1.CHARACTER_MAXIMUM_LENGTH对于枚举无效。另外,我的查询排除了视图,因为这些视图必须分别更改。
我只是使用Perl脚本以数组的形式返回所有这些更改,并对其进行迭代,修复了数据太长的列(通常为varchar(256),当数据中通常只有20个字符时,这很容易解决) )。
从latin1-> utf8mb4进行更改时,我发现某些数据已损坏。看来是utf8编码的latin1字符在转换中会变得愚蠢。我只是简单地保存了更改前后的列中的数据,这些列我知道这将是内存中的问题,并对其进行比较并生成用于修复数据的更新语句。