Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

18
如何在Windows命令行中使用Unicode字符?
我们在Team Foundation Server(TFS)中有一个项目,其中包含非英语字符(š)。当尝试编写一些与构建相关的东西的脚本时,我们偶然发现了一个问题-我们无法将š字母传递给命令行工具。命令提示符或其他原因将其弄乱了,并且tf.exe实用程序找不到指定的项目。 我已经尝试过.bat文件的不同格式(ANSI,带有和不带有BOM的 UTF-8 )以及使用JavaScript编写脚本(固有地是Unicode)的脚本-但没有运气。如何执行程序并将其传递给Unicode命令行?

10
如何更正TypeError:散列之前必须对Unicode对象进行编码?
我有这个错误: Traceback (most recent call last): File "python_md5_cracker.py", line 27, in <module> m.update(line) TypeError: Unicode-objects must be encoded before hashing 当我尝试在Python 3.2.2中执行以下代码时: import hashlib, sys m = hashlib.md5() hash = "" hash_file = input("What is the file name in which the hash resides? ") wordlist = input("What is your wordlist? …

6
语法错误:函数返回“£”时文件中的非ASCII字符“ \ xa3”
说我有一个功能: def NewFunction(): return '£' 我想打印一些在前面带有井号的东西,并且在我尝试运行该程序时打印出错误,并显示以下错误消息: SyntaxError: Non-ASCII character '\xa3' in file 'blah' but no encoding declared; see http://www.python.org/peps/pep-0263.html for details 谁能告诉我如何在返回函数中加入井号吗?我基本上是在课堂上使用它,并且在'__str__'包含磅符号的部分内。

21
如何从JSON获取字符串对象而不是Unicode?
我正在使用Python 2从ASCII编码的文本文件中解析JSON 。 使用json或 加载这些文件时simplejson,我所有的字符串值都转换为Unicode对象而不是字符串对象。问题是,我必须将数据与仅接受字符串对象的某些库一起使用。我无法更改库,也无法更新它们。 是否可以获取字符串对象而不是Unicode对象? 例 >>> import json >>> original_list = ['a', 'b'] >>> json_list = json.dumps(original_list) >>> json_list '["a", "b"]' >>> new_list = json.loads(json_list) >>> new_list [u'a', u'b'] # I want these to be of type `str`, not `unicode` 更新资料 很久以前,当我坚持使用Python 2时就问了这个问题。今天一种简单易用的解决方案是使用最新版本的Python,即Python 3及更高版本。


4
为什么此后写的代码显示“ Hello World!”
这是我在Internet上找到的一些代码: class M‮{public static void main(String[]a‭){System.out.print(new char[] {'H','e','l','l','o',' ','W','o','r','l','d','!'});}} 此代码会打印Hello World!到屏幕上;您可以看到它在这里运行。我可以清楚地看到public static void main书面内容,但这是倒退的。该代码如何工作?怎么编译? 编辑:我在IntellIJ中尝试过此代码,并且工作正常。但是,由于某些原因,它不能与cmd一起在notepad ++中工作。我仍然没有找到解决方案,因此,如果有人这样做,请在下面进行评论。

9
UnicodeDecodeError,无效的继续字节
为什么以下项目失败?为什么使用“ latin-1”编解码器成功? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") 结果是: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError: 'utf8' …
257 python  unicode  decode 

7
用单个空格替换非ASCII字符
我需要用空格替换所有非ASCII(\ x00- \ x7F)字符。令我惊讶的是,这在Python中并不是一件容易的事,除非我丢失了一些东西。以下功能仅删除所有非ASCII字符: def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) 并且该字符将非ASCII字符替换为空格,该空格数量与字符代码点中的字节数相同(即,–字符替换为3个空格): def remove_non_ascii_2(text): return re.sub(r'[^\x00-\x7F]',' ', text) 如何用单个空格替换所有非ASCII字符? 的 在 无数 的 类似 SO 问题,无 地址 的字符 替换 为 反对 以 剥离,并进一步解决所有非ASCII字符不是一个特定的字符。

13
Python:从字符串中删除\ xa0?
我目前正在使用Beautiful Soup解析HTML文件并调用get_text(),但似乎我剩下很多表示空格的\ xa0 Unicode。有没有一种有效的方法可以在Python 2.7中将其全部删除,并将其更改为空格?我想更笼统的问题是,有没有办法删除Unicode格式? 我尝试使用:line = line.replace(u'\xa0',' '),如另一个线程所建议的那样,但是将\ xa0更改为u,所以现在到处都是“ u”。): 编辑:问题似乎已通过解决str.replace(u'\xa0', ' ').encode('utf-8'),但.encode('utf-8')不这样做replace()似乎会导致它吐出甚至更奇怪的字符,例如\ xc2。谁能解释一下?
241 python  parsing  unicode 

12
一个Unicode字符占用多少字节?
我对编码有点困惑。据我所知,旧的ASCII字符每个字符占用一个字节。Unicode字符需要多少个字节? 我假设一个Unicode字符可以包含任何语言的所有可能字符-我正确吗?那么每个字符需要多少个字节? UTF-7,UTF-6,UTF-16等是什么意思?它们是Unicode的不同版本吗? 我阅读了有关Unicode的Wikipedia文章,但对我来说却很难。我期待看到一个简单的答案。

5
如何使用vim更改文件的编码?
我习惯于使用vim来修改文件的行尾: $ file file file: ASCII text, with CRLF line terminators $ vim file :set ff=mac :wq $ file file file: ASCII text, with CR line terminators 是否可以使用类似的过程来更改文件的unicode编码?我正在尝试以下操作,但不起作用: $ file file.xml file.xml: Unicode text, UTF-16, little-endian $ vim file :set encoding=utf-8 :wq $ file file.xml file.xml: Unicode text, UTF-16, little-endian …
235 vim  unicode 

8
将Unicode文本写入文本文件?
我正在从Google文档中提取数据,进行处理,然后将其写入文件(最终我将其粘贴到Wordpress页面中)。 它具有一些非ASCII符号。如何将这些安全地转换为可以在HTML源代码中使用的符号? 目前,我正在将所有内容都转换为Unicode,将它们全部组合成Python字符串,然后执行以下操作: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最后一行存在编码错误: UnicodeDecodeError:'ascii'编解码器无法解码位置12286的字节0xa0:序数不在范围内(128) 部分解决方案: 此Python运行无错误: row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8")) 但是,如果我打开实际的文本文件,则会看到很多符号,例如: Qur‚Äôan 也许我需要写文本文件以外的东西?

5
C ++中的_tmain()和main()有什么区别?
如果我使用以下main()方法运行C ++应用程序,则一切正常: int main(int argc, char *argv[]) { cout << "There are " << argc << " arguments:" << endl; // Loop through each argument and print its number and value for (int i=0; i<argc; i++) cout << i << " " << argv[i] << endl; return 0; } 我得到了我的期望,并且我的论据被打印出来。 …
224 c++  unicode  arguments 

18
您如何在Bash中回显4位Unicode字符?
我想将Unicode骷髅和交叉骨添加到我的shell提示符中(特别是“ SKULL AND CROSSBONES”(U + 2620)),但我无法弄清楚使回声吐出的魔咒,或其他任何东西, 4位Unicode字符。两位数字很容易。例如,echo -e“ \ x55”,。 除了以下答案外,还应注意,很明显,您的终端需要支持Unicode才能使输出符合您的期望。gnome-terminal在这方面做得很好,但是默认情况下不一定打开它。 在macOS的终端应用程序上,转到“首选项”->“编码”,然后选择Unicode(UTF-8)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.