3
UTF-8“可变宽度编码”如何工作?
unicode标准中有足够的代码点,您需要4个字节来存储它们。这就是UTF-32编码的作用。然而,UTF-8编码通过使用一种称为“可变宽度编码”的方式将它们压缩到更小的空间中。 实际上,它设法在一个字节中代表了US-ASCII的前127个字符,这看起来与真实的ASCII完全一样,因此您可以将许多ascii文本解释为UTF-8,而无需对其进行任何处理。整洁的把戏。那么它是怎样工作的? 我将在这里问和回答我自己的问题,因为我只是做了一些阅读来弄清楚这个问题,我认为这可能会节省一些时间。另外,如果我有一些错误,也许有人可以纠正我。