Questions tagged «unicode»

Unicode是一种通用字符集,用于描述包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

8
向各种语言实现中添加Unicode标识符支持有什么意义?
我个人发现阅读代码充满了Unicode标识符令人困惑。在我看来,它还阻止了代码的轻松维护。更不用说所有译者的作者为实现这种支持而付出的所有努力。我还不断注意到各种语言实现的(缺点)缺点列表中缺少(或存在)Unicode标识符支持(确实很重要)。我不明白:为什么要这么关注?
14 unicode 

2
Unicode字符串的高效Trie实现
我一直在寻找有效的String trie实现。通常,我发现这样的代码: Java中的引用实现(每个维基百科) 我不喜欢这些实现主要有两个原因: 它们仅支持256个ASCII字符。我需要介绍西里尔字母。 它们的内存效率极低。 每个节点包含256个引用的数组,在Java的64位计算机上为4096字节。这些节点中的每个节点最多可以具有256个子节点,每个子节点具有4096字节的引用。因此,每个ASCII 2字符串的完整Trie要求超过1MB。三个字符串?256MB仅用于节点中的阵列。等等。 当然,我不打算在Trie中使用全部1600万个三个字符串,因此浪费了很多空间。这些数组中的大多数只是空引用,因为它们的容量远远超过了插入键的实际数量。而且,如果我添加unicode,数组会更大(char具有64k值,而不是Java中的256)。 有没有希望对字符串进行有效的尝试?我考虑了对这些类型的实现的一些改进: 除了使用引用数组之外,我还可以使用原始整数类型的数组,该数组将对大小与实际节点数接近的节点的引用数组进行索引。 我可以将字符串分成4位部分,这将允许以更大的树为代价允许大小为16的节点数组。
12 unicode  trie 

5
为什么“字符集”在实际使用中真的意味着“编码”?
长期以来困扰我的是,太多的软件使用术语“字符集”和“编码”作为同义词。 当人们引用unicode的“编码”时,它们总是表示一个规则集,用于将unicode字符表示为字节序列(例如ASCII或UTF-8)。这似乎是合理而直观的。想法是您使用指定的规则集将这些字符“编码”为字节。 由于这些规则集有时仅提供对所有unicode字符的某些子集进行“编码”的能力,因此您可能会想到,“字符集”(“字符集”的缩写)仅表示一组unicode字符,而无需考虑如何这些字符被编码。因此,编码将暗含一个字符集(像ASCII这样的编码,仅具有编码128个字符的规则,将与那些128个字符的字符集相关联),但是字符集不必暗含一种编码(例如,UTF-8,UTF -16和UTF-32都是不同的编码,但是可以编码相同的字符集。 但是-这是我的问题的症结-“字符集”一词在现实世界中的使用与该词的构造所暗示的不匹配。它几乎总是用来表示“编码”。 例如: charsetHTML中的属性用于指定编码 CharsetJava中的s是编码 charset和character setsMySQL再次是编码 这种对语言的好奇(滥用)年龄有多大?“直觉”的反直觉定义是如何形成的?它可能是从一个时间起源当有真正的是,在实践中,人物的使用编码与套之间有一个一对一映射他们的支持?还是有一些特别有影响力的标准或规范决定了这个词的定义?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.