Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

17
在字符集之间转换文本文件的最佳方法?
在字符集之间转换文本文件的最快,最简单的工具或方法是什么? 具体来说,我需要从UTF-8转换为ISO-8859-15,反之亦然。 一切顺利:以您喜欢的脚本语言,命令行工具或其他适用于OS,网站等的实用工具进行一线处理 迄今为止最好的解决方案: 在Linux / UNIX / OS X / cygwin上: Troels Arvin建议的Gnu iconv最好用作过滤器。它似乎是普遍可用的。例: $ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt 正如Ben指出的,有一个使用iconv的在线转换器。 Cheekysoft建议的Gnu recode(手册)将就地转换一个或几个文件。例: $ recode UTF8..ISO-8859-15 in.txt 这使用较短的别名: $ recode utf8..l9 in.txt 重新编码还支持可用于在不同的行尾类型和编码之间进行转换的表面: 将换行符从LF(Unix)转换为CR-LF(DOS): $ recode ../CR-LF in.txt Base64编码文件: $ recode ../Base64 in.txt 您也可以将它们结合在一起。 将具有Unix行结尾的Base64编码的UTF8文件转换为具有Dos行结尾的Base64编码的Latin 1文件: …

8
移除Python unicode字符串中的重音符号的最佳方法是什么?
我在Python中有一个Unicode字符串,我想删除所有的重音符号(变音符号)。 我在网上发现了一种用Java实现此目的的优雅方法: 将Unicode字符串转换为长规范化格式(带有单独的字母和变音符号) 删除Unicode类型为“变音符号”的所有字符。 我是否需要安装pyICU之类的库,还是仅使用python标准库就可以?那python 3呢? 重要说明:我想避免使用带有重音符号到非重音符号的显式映射的代码。



12
UTF-8,UTF-16和UTF-32
UTF-8,UTF-16和UTF-32有什么区别? 我知道它们都将存储Unicode,并且每个都使用不同数量的字节来表示字符。选择一个而不是另一个有优势吗?
486 unicode  utf-8  utf-16  utf  utf-32 

12
将utf-8文本保存在json.dumps中为UTF8,而不是\ u转义序列
样例代码: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" 问题:这不是人类可读的。我的(智能)用户想要使用JSON转储来验证甚至编辑文本文件(我宁愿不使用XML)。 有没有一种方法可以将对象序列化为UTF-8 JSON字符串(而不是 \uXXXX)?
472 python  json  unicode  utf-8  escaping 

30
反转字符串的最佳方法
我只需要在C#2.0中编写一个字符串反向函数(即LINQ不可用),并提出了以下建议: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } 就我个人而言,我并不对功能感到疯狂,并且坚信有更好的方法来实现它。在那儿?

17
使用Python在Pandas中读取CSV文件时出现UnicodeDecodeError
我正在运行一个程序,正在处理30,000个类似文件。他们中有随机数正在停止并产生此错误... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, …


9
什么是Unicode,UTF-8,UTF-16?
Unicode的基础是什么,为什么需要UTF-8或UTF-16?我已经在Google上对此进行了研究,并且也在此处进行了搜索,但我不清楚。 在VSS中进行文件比较时,有时会出现一条消息,指出两个文件具有不同的UTF。为什么会这样呢? 请简单说明。

5
为什么2+ 40等于42?
当一位同事向我展示这一行JavaScript警报42时,我感到困惑。 alert(2+ 40); 运行代码段隐藏结果展开摘要 很快就发现,看起来像减号的实际上是具有明显不同语义的奥秘Unicode字符。 这让我想知道为什么在解析表达式时该字符不会产生语法错误。我还想知道是否还有更多这样的字符。

11
如何对所有非A​​SCII字符进行grep?
我有几个非常大的XML文件,正在尝试查找包含非ASCII字符的行。我尝试了以下方法: grep -e "[\x{00FF}-\x{FFFF}]" file.xml 但这将返回文件中的每一行,无论该行是否包含指定范围内的字符。 我的语法有误还是做错了其他事情?我也尝试过: egrep "[\x{00FF}-\x{FFFF}]" file.xml (用单引号和双引号将模式引起来)。
359 regex  unix  unicode  grep 


6
如何在R中找到字符串的长度
如何查找字符串的长度(字符串中的字符数)而不用R拆分?我知道如何找到列表的长度而不是字符串的长度。 Unicode字符串呢?如何找到Unicode字符串的长度(以字节为单位)和字符数(符文,符号)? 相关问题: 如何在R中的Unicode字符串中找到“实际”字符数

14
Unicode(UTF-8)用Python读写文件
我在理解将文本写入文件和将文件写入文件时遇到了一些大脑故障(Python 2.4)。 # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) (“ u'Capit \ xe1n'”,“'Capit \ xc3 \ xa1n'”) print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' 因此,我Capit\xc3\xa1n在文件f2 中输入我最喜欢的编辑器。 然后: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' >>> open('f1').read().decode('utf8') u'Capit\xe1n\n' >>> …
329 python  unicode  utf-8  io 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.