Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

12
从Unicode字符中删除变音符(criticalñṅṇṋṉȵȵ)
我正在研究一种算法,该算法可以在带有变音符号的字符(tilde,circumflex,caret,umlaut,caron)及其“简单”字符之间进行映射。 例如: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o 等等。 我想用Java做到这一点,尽管我怀疑它应该是Unicode-y,并且应该可以轻松地以任何语言进行操作。 目的:允许轻松搜索带有变音符号的单词。例如,如果我有一个网球运动员数据库,并且输入了Björn_Borg,我还将保留Bjorn_Borg,这样,如果有人进入Bjorn而不是Björn,我就可以找到它。

5
真的好,不好的UTF-8示例测试数据[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 3年前关闭。 改善这个问题 因此,我们有XSS备忘单来测试XSS过滤-但是除了示例性的良性页面之外,我找不到任何邪恶或格式错误的测试数据来确保我的UTF-8代码可以处理行为异常的数据。 我在哪里可以找到一些很好的数据来进行测试?或什么是棘手的字符序列?
88 unicode  utf-8 

8
如何替换Java中不可打印的Unicode字符?
以下内容将替换ASCII控制字符(的缩写[\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); 以下内容将替换所有ASCII不可打印字符(的缩写[\p{Graph}\x20]),包括带重音符号的字符: my_string.replaceAll("[^\\p{Print}]", "?"); 但是,两者均不适用于Unicode字符串。有谁能从Unicode字符串中删除不可打印的字符的好方法?
88 java  string  unicode 

12
TCHAR是否仍然相关?
我是Windows编程的新手,在阅读Petzold的书后,我感到奇怪: 使用TCHAR类型和_T()函数声明字符串是否仍然是一种好习惯,或者是否应该在新代码中仅使用wchar_tandL""字符串? 我将仅针对Windows 2000及更高版本,并且从一开始我的代码就是i18n。
87 c++  c  windows  unicode  wchar-t 


6
使用“ use utf8;” 给我“打印中的宽字符”
如果我运行以下Perl程序: perl -e 'use utf8; print "鸡\n";' 我收到此警告: Wide character in print at -e line 1. 如果我运行此Perl程序: perl -e 'print "鸡\n";' 我没有得到警告。 我认为use utf8必须在Perl脚本中使用UTF-8字符。为什么这不起作用,我该如何解决?我正在使用Perl 5.16.2。如果这是在文件中而不是在命令行中使用一个衬板,我也会遇到同样的问题。
86 perl  unicode  utf-8 

2
正则表达式:什么是InCombiningDiacriticalMarks?
以下代码是众所周知的将重音符转换为纯文本的代码: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 我用这种方法代替了“手工制作”方法,但是我需要了解replaceAll的“ regex”部分 1)什么是“ InCombiningDiacriticalMarks”? 2)它的文档在哪里?(和类似的?) 谢谢。
86 java  regex  unicode 


1
WebClient.DownloadString由于编码问题而导致字符变形,但浏览器正常
如下代码: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); 产生一个变量text,其中包含字符串 “ $β$ -Minkowski空间,标量场和洛伦兹不变性问题” 但是,当我在Firefox中访问该URL时, $κ$ -Minkowski空间,标量场和洛伦兹不变性问题 这实际上是正确的。我也试过 var data = (new WebClient()).DownloadData("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20"); var text = System.Text.UTF8Encoding.Default.GetString(data); 但这带来了同样的问题。 我不确定问题出在哪里。提要是否在于对UTF8进行编码,并且浏览器足够聪明以至于可以识别出来,但事实并非如此WebClient?提要是否经过正确的UTF8编码,但是WebClient以其他方式失败了?我该怎么做才能减轻这种情况?



1
C ++ 11中字符串文字的Unicode编码
提出一个相关问题之后,我想问一下C ++ 11中新的字符和字符串文字类型。看来我们现在有四种字符和五种字符串文字。字符类型: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t c = u'\u00F6'; // 16-bit, assumed UTF16? char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4 和字符串文字: char A[] = "Hello\x0A"; // byte string, "narrow encoding" wchar_t B[] = L"Hell\xF6\x0A"; …

3
Python中unicode()和encode()函数的用法
我在对路径变量进行编码并将其插入SQLite数据库时遇到问题。我试图用无济于事的encode(“ utf-8”)函数解决此问题。然后,我使用unicode()函数为我提供unicode类型。 print type(path) # <type 'unicode'> path = path.replace("one", "two") # <type 'str'> path = path.encode("utf-8") # <type 'str'> strange path = unicode(path) # <type 'unicode'> 最终我获得了unicode类型,但是当path变量的类型为str时,仍然出现相同的错误 sqlite3.ProgrammingError:除非使用可以解释8位字节串的text_factory(如text_factory = str),否则不得使用8位字节串。强烈建议您改为将应用程序切换为Unicode字符串。 您能帮我解决此错误,并解释encode("utf-8")和unicode()功能的正确用法吗?我经常为此而斗争。 编辑: 此execute()语句引发错误: cur.execute("update docs set path = :fullFilePath where path = :path", locals()) 我忘记更改具有相同问题的fullFilePath变量的编码,但是现在我很困惑。我应该只使用unicode()还是encode(“ utf-8”)还是两者都使用? 我不能用 fullFilePath = …

6
Unicode可以映射多少个字符?
我要求解释所有Unicode中所有可能有效组合的数量。我知道一个char可以编码为1,2,3或4个字节。即使该char的起始字节清除了应该多长时间,我也不明白为什么连续字节有限制。
82 unicode  utf-8  utf 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.