Answers:
也许您会通过CJK Unicode FAQ(其中包括“中文,日文和韩文”字符)找到完整列表。
“ 东亚文字 ”文档确实提到:
包含汉字表意文字的块
在Unicode标准的五个主要块中找到汉字表意字符,如表12-2所示
表12-2。包含汉字表意文字的块
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注意:块范围会随着时间而变化:最新出现在CJK Unified Ideographs中。
另请参阅维基百科:
Unicode当前具有74605个CJK字符。CJK字符不仅包括中文使用的字符,还包括日文汉字,韩文汉字和越南文Chu Nom。某些CJK字符不是中文字符。
代码点U + 4E00至U + 9FCC。
代码点 U + 3400至U + 4DB5。Unicode 3.0(1999)。
代码点U + 20000至U + 2A6D6。Unicode 3.1(2001)。
代码点 U + 2A700至U + 2B734。Unicode 5.2(2009年)。
代码点 U + 2B740至U + 2B81D。Unicode 6.0(2010)。
如果上述内容还不足以解决意大利面问题,请查看已知问题。玩得开心=)
汉字的确切范围(扩展名除外)为[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
。
CJK Radicals Supplement是Unicode块,其中包含Kangxi部首的其他形式(通常为位置形式)。它们用在字典索引和其他由部首笔划组织的CJK表意文字集中的标题。
Kanbun是一个Unicode块,其中包含注释字符,这些注释字符用于古典中文文本的日语副本中,以指示阅读顺序。
CJK统一表意文字扩展程序A是一个Unicode块,其中包含罕有的汉字表意文字。
CJK统一表意文字是一个Unicode块,其中包含现代汉语和日语中最常用的CJK表意文字。
CJK兼容性表意文字是一个Unicode块,创建为包含汉字,这些汉字除以其CJK统一表意符号分配外,还以其他已建立的字符编码在多个位置编码,以保持Unicode与这些编码之间的往返兼容性。
有关详细信息,请参阅此处,扩展在其他答案中提供。
Unicode版本11.0.0
在Unicode中,中文,日文和韩文(CJK)脚本具有共同的背景,统称为CJK字符。
这些范围通常包含未分配或保留的代码点(例如U + 2E9A,U + 2EF4-2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
因此范围是
[0x3007,0x3007],[0x3400,0x4DBF],[0x4E00,0x9FEF],[0x20000,0x2EBFF]
它们是普通汉族,仅用于兼容性。
几乎不可能看到它们出现在任何中文书籍,文章,著作等中。
这里的所有字符都有一个对应的字形相同的汉字。例如金(U + F90A)和金(U + 91D1),它们的字形相同。
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
这个范围很广,有些标点符号可能从未使用过,有些标点符号……”“
在中文中用得很多。
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
也有许多与中文相关的符号,例如《易经六卦》符号或“ 看板”,但无论如何它都是题外话。为了更好地解释什么是汉字,我在CJK中写了非中文字符。上面的范围已经涵盖了中文写作中几乎所有字符,除了数学和其他专业符号。
中日韩符号和标点符号
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
半角和全角形式
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
其他人给出的Unicode代码块肯定涵盖了大多数中文Unicode字符,但也可以查看其中一些其他代码块。
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
总而言之,听起来像是它们:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]