Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

6
Java FileReader编码问题
我尝试使用java.io.FileReader读取一些文本文件并将其转换为字符串,但是我发现结果编码错误并且根本不可读。 这是我的环境: Windows 2003,操作系统编码:CP1252 Java 5.0 我的文件是UTF-8编码或CP1252编码的,其中一些(UTF-8编码的文件)可能包含中文(非拉丁文)字符。 我使用以下代码来完成我的工作: private static String readFileAsString(String filePath) throws java.io.IOException{ StringBuffer fileData = new StringBuffer(1000); FileReader reader = new FileReader(filePath); //System.out.println(reader.getEncoding()); BufferedReader reader = new BufferedReader(reader); char[] buf = new char[1024]; int numRead=0; while((numRead=reader.read(buf)) != -1){ String readData = String.valueOf(buf, 0, numRead); fileData.append(readData); buf = …
130 java  file  unicode  encoding 

12
将符号,重音字母转换为英文字母
如您所知,问题是Unicode图表中有成千上万个字符,我想将所有类似的字符转换为英文字母。 例如,这里有一些转换: ҥ->H Ѷ->V Ȳ->Y Ǭ->O Ƈ->C tђє Ŧค๓เℓy --> the Family ... 我发现字母A / a有20多个版本。而且我不知道如何对它们进行分类。它们看起来像大海捞针。 Unicode字符的完整列表位于http://www.ssec.wisc.edu/~tomw/java/unicode.html 或http://unicode.org/charts/charindex.html。只需向下滚动并查看字母的变体即可。 如何用Java转换所有这些?请帮我 :(

7
什么是标准化的UTF-8?
在ICU项目(也现在有一个PHP库)中包含有需要帮助恢复正常UTF-8串类,使搜索时更容易地比较值。 但是,我试图弄清楚这对应用程序意味着什么。例如,在哪种情况下,我想要“规范对等”而不是“兼容性对等”,反之亦然?

8
什么是HTML字符代码8203?
字符代码(HTML)是​什么?我在我的一个jQuery脚本中找到了它,并想知道它是什么。 谢谢。 编辑: 这是它所在的脚本(已添加到末尾,在Firebug中找到了它) <script src="http://code.jquery.com/jquery-latest.js" type="text/javascript"></script> <script type="text/javascript"> var $jnyh = jQuery.noConflict(); $jnyh(function() { $jnyh("#title-nyh").click(function() { $jnyh(".show-hide-nyh").slideDown("slow"); }, function() { if(!$jnyh(this).data('pinned')) $jnyh(".show-hide-nyh").slideUp("slow"); }); $jnyh("#title-nyh").click(function() { $jnyh(this).parent().toggleClass("title-btm-brdr"); $jnyh(this).toggleClass("chev-up-result"); var pin = $jnyh(this).data('pinned'); $jnyh(this).data('pinned', !pin); if(pin) $jnyh(".show-hide-nyh").slideUp("slow"); }); });​​ </script>


3
Java正则表达式中\ w和\ b的Unicode等效项?
许多现代正则表达式实现将\w字符类速记解释为“任何字母,数字或连接标点符号”(通常:下划线)。这样一来,像一个正则表达式\w+匹配的话像hello,élève,GOÄ_432或gefräßig。 不幸的是,Java没有。在Java中,\w仅限于[A-Za-z0-9_]。除了其他问题之外,这使得匹配上述单词变得困难。 似乎\b分隔符在不应该匹配的地方匹配。 类似于.NET的,支持Unicode的\w或\bJava 的正确等效项是什么?还有哪些其他快捷方式需要“重写”以使它们能够识别Unicode?

7
Python-'ASCII'编解码器无法解码字节
我真的很困惑 我尝试编码,但错误提示can't decode...。 >>> "你好".encode("utf8") Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 我知道如何避免在字符串上加上“ u”前缀的错误。我只是想知道为什么在调用编码时错误是“无法解码”的。Python到底是做什么的?

10
如何防止Unicode字符从JavaScript渲染为HTML中的表情符号?
我从FileFormat.Info的search中找到特殊字符的Unicode 。 有些字符正在渲染为经典的黑白字形,例如⚠(警告符号\u26A0或⚠)。这些是更可取的,因为我可以将CSS样式(例如颜色)应用于它们。 其他人则将其渲染为较新的卡通表情符号,例如⌛(沙漏\u231B或⌛)。这些不是可取的,因为我无法完全设置它们的样式。 看来浏览器正在进行此更改,因为我能够在Mac Firefox上看到沙漏字形,而在Mac Chrome和Mac Safari上看不到。 有没有一种方法可以强制浏览器显示要显示的旧版本(平面单调)? 更新:看来(从下面的评论)有一个文本显示选择,FE0E,可用来执行文本VS-表情符号。选择器被连接为后缀,字符代码上没有空格,例如⌛︎HTML十六进制或\u231B\uFE0EJS。但是,并非所有浏览器(例如Chrome和Edge)都认可它。
119 javascript  html  css  unicode  emoji 


13
从数字创建Unicode字符
我想在Java中显示Unicode字符。如果我这样做,它就可以正常工作: String symbol = "\u2202"; 符号等于“∂”。这是我想要的。 问题是我知道Unicode号,因此需要从中创建Unicode符号。我(对我)尝试了显而易见的事情: int c = 2202; String symbol = "\\u" + c; 但是,在这种情况下,符号等于“ \ u2202”。那不是我想要的 如果我知道符号的Unicode编号(但只能在运行时-我不能像第一个示例那样对其进行硬编码),如何构造该符号?

6
如何从Perl输出UTF-8?
我正在尝试使用“ utf8”编译指示来编写Perl脚本,并且得到了意外的结果。我正在使用Mac OS X 10.5(Leopard),并且正在使用TextMate进行编辑。我的编辑器和操作系统的所有设置都默认为以utf-8格式写入文件。 但是,当我在文本文件中输入以下内容,将其另存为“ .pl”并执行时,我得到了友好的“带问号的钻石”来代替非ASCII字符。 #!/usr/bin/env perl -w use strict; use utf8; my $str = 'Çirçös'; print( "$str\n" ); 知道我在做什么错吗?我期望在输出中得到'Çirçös',但是我得到的是'.ir s'。
110 perl  unicode  utf-8 

3
UTF-8“可变宽度编码”如何工作?
unicode标准中有足够的代码点,您需要4个字节来存储它们。这就是UTF-32编码的作用。然而,UTF-8编码通过使用一种称为“可变宽度编码”的方式将它们压缩到更小的空间中。 实际上,它设法在一个字节中代表了US-ASCII的前127个字符,这看起来与真实的ASCII完全一样,因此您可以将许多ascii文本解释为UTF-8,而无需对其进行任何处理。整洁的把戏。那么它是怎样工作的? 我将在这里问和回答我自己的问题,因为我只是做了一些阅读来弄清楚这个问题,我认为这可能会节省一些时间。另外,如果我有一些错误,也许有人可以纠正我。

3
实际使用中最常见的非BMP Unicode字符是什么?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 6年前关闭。 改善这个问题 根据您的经验,到目前为止,哪些BUnicode(基本多语言平面)之外的Unicode字符,代码点和范围是最常见的?这些是在UTF-8中需要4个字节或在UTF-16中需要替代的字节。 我希望答案是名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但是在我最忙的项目中,英语维基词典中,我们发现哥特字母是到目前为止更普遍。 更新 我编写了一些软件工具来扫描整个Wikipedia中的非BMP字符,令我惊讶的是,即使在日语Wikipedia中,哥特字母也是最常见的。在中文维基百科中也是如此,但也有许多中文字符被使用多达50或70次,包括“𨭎”,“𠬠”和“𩷶”。

5
URL编码Unicode字符的正确方法是什么?
我知道非标准的%uxxxx方案,但这似乎不是明智的选择,因为该方案已被W3C拒绝。 一些有趣的例子: 心性。如果我在浏览器中输入以下内容: http://www.google.com/search?q=♥ 然后复制并粘贴它,我看到这个网址 http://www.google.com/search?q=%E2%99%A5 这似乎使Firefox(或Safari)正在执行此操作。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' 这很有意义,除了不能用Latin-1编码的东西(例如三点字符)。 … 如果我输入网址 http://www.google.com/search?q=… 到我的浏览器,然后复制并粘贴,我得到 http://www.google.com/search?q=%E2%80%A6 背部。这似乎是这样做的结果 urllib.quote_plus(x.encode("utf-8")) 这很有意义,因为…无法使用Latin-1进行编码。 但是对于我来说,这还不清楚,浏览器如何知道是使用UTF-8还是Latin-1进行解码。 由于这似乎是模棱两可的: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 可以,所以我不知道浏览器如何确定是使用UTF-8还是Latin-1对其进行解码。 使用我需要处理的特殊字符正确的做法是什么?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.