Unicode汉字的完整范围是多少?


Answers:


104

也许您会通过CJK Unicode FAQ(其中包括“中文,日文和韩文”字符)找到完整列表。

东亚文字 ”文档确实提到:

包含汉字表意文字的块

在Unicode标准的五个主要块中找到汉字表意字符,如表12-2所示

表12-2。包含汉字表意文字的块

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

注意:块范围会随着时间而变化:最新出现在CJK Unified Ideographs中

另请参阅维基百科:


您可能还希望包含U + AC00 – U + D7AF(Hangul音节)。
Flimm

12
@Flimm:韩文不属于中国标准;韩文是韩文。朝鲜语确实使用了Hanja(“中文脚本”),但是几乎并仅用于不能在韩文中转录的某些传统事物(例如姓氏,纪念碑,地方...)。OP专门询问了中文,因此“响应者”无需包括韩文。:-)
无所不知

1
列表似乎不包含标点符号(“。”)。
米哈尔沃林斯基

1
@MichałWolińskiCJK 符号和标点范围是3000-303F
马里亚诺

我了解到CJK Unified Ideographs Extension A从3400到4dbf,而不是3400到4dff。
Lerner Zhang 2016年

48

Unicode当前具有74605个CJK字符。CJK字符不仅包括中文使用的字符,还包括日文汉字,韩文汉字和越南文Chu Nom。某些CJK字符不是中文字符。

1)中日韩统一表意文字区的 20941个字符。

代码点U + 4E00至U + 9FCC。

  1. U + 4E00-U + 62FF
  2. U + 6300-U + 77FF
  3. U + 7800-U + 8CFF
  4. U + 8D00-U + 9FCC

2)从6582个字符开始 CJKUI Ext A块中的

代码点 U + 3400至U + 4DB5。Unicode 3.0(1999)。

3)的42711个字符 CJKUI Ext B块的

代码点U + 20000至U + 2A6D6。Unicode 3.1(2001)。

  1. U + 20000-U + 215FF
  2. U + 21600-U + 230FF
  3. U + 23100-U + 245FF
  4. U + 24600-U + 260FF
  5. U + 26100-U + 275FF
  6. U + 27600-U + 290FF
  7. U + 29100-U + 2A6DF

3)来自4149个字符 CJKUI Ext C块的

代码点 U + 2A700至U + 2B734。Unicode 5.2(2009年)。

4)222个字符 CJKUI Ext D块中的

代码点 U + 2B740至U + 2B81D。Unicode 6.0(2010)。

5)CJKUI Ext E块。

快来了

如果上述内容还不足以解决意大利面问题,请查看已知问题。玩得开心=)


1
嗨,您能举一个不是中文字的CJK表意文字的例子吗?我认为来自其他语言(日语,韩语)的字符也并非汉字出现在另一个块中(例如,韩文的韩文Jamo块)...
Adam Burley

尝试查看“ Gukja”,“ Kokuji”和“ChữNôm”。U + 4E44(乄)是仅日语的CJK字符。
Ṃųỻịgǻňạcểơửṩ

21

汉字的确切范围(扩展名除外)为[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement是Unicode块,其中包含Kangxi部首的其他形式(通常为位置形式)。它们用在字典索引和其他由部首笔划组织的CJK表意文字集中的标题。

  1. [\u3190-\u319f]

Kanbun是一个Unicode块,其中包含注释字符,这些注释字符用于古典中文文本的日语副本中,以指示阅读顺序。

  1. [\u3400-\u4DBF]

CJK统一表意文字扩展程序A是一个Unicode块,其中包含罕有的汉字表意文字。

  1. [\u4E00-\u9FCC]

CJK统一表意文字是一个Unicode块,其中包含现代汉语和日语中最常用的CJK表意文字。

  1. [\uF900-\uFAAD]

CJK兼容性表意文字是一个Unicode块,创建为包含汉字,这些汉字除以其CJK统一表意符号分配外,还以其他已建立的字符编码在多个位置编码,以保持Unicode与这些编码之间的往返兼容性。

有关详细信息,请参阅此处,扩展在其他答案中提供。


对此答案不满意的人可以告诉我原因吗?
Lerner Zhang

2
我没有投票,但是扩展B,C,D和E呢?
Suragch

@Suragch在其他答案中已经正确提供了这些扩展名,因此不需要我重写它。我只清楚地分开了两者之间的范围。
Lerner Zhang

1. CJK部首补编的范围是2E80-2EFF 2.Kangxi部首不是汉字,它是汉字的​​图形组成部分,专门用于表示部首,例如⼻(U + 2F3B)和彳(U + 5F73 ),⻜(U + 2EDC)和飞(U + 98DE)3.如果您认为看板是中文字符,为什么不使用中日韩兼容表意文字呢?为什么不附中日韩字母和月份?
旅行者

@rambler感谢您的建议。我认为处理中文字符时,应考虑“康熙激进派”和“看文”。CJK兼容性表意文字很好,但随附的CJK字母和月份太少了,我认为我们不应该考虑它们。
Lerner Zhang

9

Unicode版本11.0.0

在Unicode中,中文,日文和韩文(CJK)脚本具有共同的背景,统称为CJK字符。

这些范围通常包含未分配或保留的代码点(例如U + 2E9A,U + 2EF4-2EFF),

中国文字

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • 在中日韩统一表意文字中块中,我注意到许多答案使用上限9FCC,但U + 9FCD(鿍)的确是中文字符。并且该块中的所有字符均为汉字(也用于日语或韩语等)。
  • CJK Unified Ideograohs Ext中的大多数字符(Ext F除外,Ext F中只有17%是汉字)是繁体汉字,在中国很少使用。
  • 〇是零的汉字形式,至今仍在使用

因此范围是

[0x3007,0x3007],[0x3400,0x4DBF],[0x4E00,0x9FEF],[0x20000,0x2EBFF]

CJK字符,但从未用过中文

它们是普通汉族,仅用于兼容性。

几乎不可能看到它们出现在任何中文书籍,文章,著作等中。

这里的所有字符都有一个对应的字形相同的汉字。例如金(U + F90A)和金(U + 91D1),它们的字形相同。

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

中日韩相关符号

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • 诸如Hangul Compatibility Jamo之类的块由于与中文无关而被放弃。
  • 康熙激进词不是汉字,它是汉字的​​图形组成部分,专门用于表示部首,例如⼻(U + 2F3B)和彳(U + 5F73),⻜(U + 2EDC)和飞(U + 98DE)

其他常见标点出现在中文中

这个范围很广,有些标点符号可能从未使用过,有些标点符号……”“在中文中用得很多。

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

也有许多与中文相关的符号,例如《易经卦》符号或“ 看板”,但无论如何它都是题外话。为了更好地解释什么是汉字,我在CJK中写了非中文字符。上面的范围已经涵盖了中文写作中几乎所有字符,除了数学和其他专业符号。

补充

中日韩符号和标点符号

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

半角和全角形式

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

参考

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97(中文,请注意右侧栏)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 %84%8F%E6%96%87%E5%AD%97 (请注意下表)
  3. http://www.unicode.org

2

其他人给出的Unicode代码块肯定涵盖了大多数中文Unicode字符,但也可以查看其中一些其他代码块。

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

在这里查看我的完整讨论。而且此站点可方便地浏览Unicode。


1

总而言之,听起来像是它们:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.