将Unicode字符串转换为Python中的字符串(包含多余的符号)


501

如何将Unicode字符串(包含额外的字符,如£$等)转换为Python字符串?


2
我们需要知道您使用的是哪个Python版本,以及您正在调用Unicode字符串是什么。在包含引起麻烦的货币符号的短unicode_string上执行以下操作:Python 2.x:print type(unicode_string), repr(unicode_string)Python 3.x:print type(unicode_string), ascii(unicode_string)然后编辑您的问题并复制/粘贴上述print语句的结果。不要重新输入结果。还要在HTML顶部附近查找,看看是否可以找到以下内容:<meta http-equiv =“ Content-Type” content =“ text / html; charset = iso-8859
John Machin

3
我怀疑您会从Web请求中获取unicode。您可能会得到UTF-8编码的Unicode。

27
@lutz:“ UTF-8编码的Unicode”不是unicode到底是什么?
jalf

2
您应该真正弄清楚unicode字符串python字符串的含义(举几个具体的例子是我猜的最好的例子),因为从注释中可以很明显地看出问题的不同解释。我想知道为什么自问这个问题已经有3,5年了,却没有这样做。
Piotr Dobrogost

6
@jalf:如果已编码;它不再是Unicode,例如,unicode_string = u"I'm unicode string"; bytestring = unicode_string.encode('utf-8'); unicode_again = bytestring.decode('utf-8')
jfs

Answers:


571
title = u"Klüft skräms inför på fédéral électoral große"
import unicodedata
unicodedata.normalize('NFKD', title).encode('ascii','ignore')
'Kluft skrams infor pa federal electoral groe'

24
+1回答了措辞上的问题,@ williamtroup无法将unicode保存到文件的问题听起来像是一个完全不同的问题,值得一个单独的问题
Mark Roddy

5
@John-该答案早于OP的澄清。
多米尼克·罗杰

10
@Mark Roddy:他写的问题是如何将包含一些货币符号的“ Unicode字符串”(无论他指的是什么)转换为“ Python字符串”(无论...是什么),并且您认为“删除一些变音符号”删除其他非ASCII字符kludge回答了他的问题???
约翰·马钦

13
@JohnMachin这会逐字回答问题:将字符串转换为a 的唯一方法是删除或转换无法用ASCII表示的字符。所以我+1。unicodestr
2013年

4
@lzkata:不,不是。type(title) == unicode and type(title.encode('utf-8')) == str。无需破坏输入即可获得可以保存到文件的字节串。
jfs

318

如果不需要翻译非ASCII字符,则可以使用编码为ASCII:

>>> a=u"aaaàçççñññ"
>>> type(a)
<type 'unicode'>
>>> a.encode('ascii','ignore')
'aaa'
>>> a.encode('ascii','replace')
'aaa???????'
>>>

4
很棒的答案。正是我所需要的。此外,精彩的演讲展示了ignorevsreplace
Jonny Brooks

a.encode('ascii', 'xmlcharrefreplace')'aaa&#224;&#231;&#231;&#231;&#241;&#241;&#241;'
鲍勃·斯坦

type(a)str在Python 3.6.8,并没有任何encode()方法。
阿里·图

138
>>> text=u'abcd'
>>> str(text)
'abcd'

如果字符串仅包含ascii字符。


18
这仅适用于Windows。如果有非ASCII符号,它将断开。
Vanuan

6
如果字符串的内容实际上是unicode,而不仅仅是unicode字符串中的ascii字符,则这会中断。不这样做,到处都会出现随机的UnicodeEncodeError异常。
道格

11
这个答案帮助了我。如果您知道您的字符串是ascii,并且需要将其强制转换回非unicode字符串,这将非常有用。
VedTopkar

113

如果您有Unicode字符串,并且想要将其写入文件或其他序列化形式,则必须首先将其编码为可以存储的特定表示形式。有几种常见的Unicode编码,例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4个字节/代码点,取决于字符)等。要将该字符串转换为特定的编码,您可以可以使用:

>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'

可以将此原始字节字符串写入文件。但是,请注意,当读回它时,您必须知道它所使用的编码并使用相同的编码对其进行解码。

写入文件时,您可以使用编解码器模块摆脱此手动编码/解码过程。因此,要打开将所有Unicode字符串编码为UTF-8的文件,请使用:

import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string)  # Stored on disk as UTF-8

请注意,正在使用这些文件的其他任何文件,如果要读取它们,都必须了解文件的编码格式。如果您是唯一一个进行读/写的人,那么这不是问题,否则请确保以一种其他任何使用文件都可以理解的形式书写。

在Python 3中,这种形式的文件访问是默认的,并且内置open函数将采用编码参数,并始终与以文本模式打开的文件在Unicode字符串(Python 3中的默认字符串对象)之间进行转换。


58

这是一个例子:

>>> u = u'€€€'
>>> s = u.encode('utf8')
>>> s
'\xe2\x82\xac\xe2\x82\xac\xe2\x82\xac'

1
有人可以解释为什么,当我将欧元符号编码utf8为如下所示时,结果只是问号吗?这是我的Python版本2.7.13 的图像。(我可以编码其他unicode对象,例如u"Klüft",但不能编码欧元吗?)
Red Pea

5

好吧,如果您愿意/准备切换到Python 3(可能不是由于与某些Python 2代码的向后不兼容),则不必进行任何转换。Python 3中的所有文本均以Unicode字符串表示,这也意味着不再使用该u'<text>'语法。实际上,您还有字节字符串,用于表示数据(可以是编码字符串)。

http://docs.python.org/3.1/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8位

(当然,如果您当前使用的是Python 3,则问题可能与您尝试将文本保存到文件中有关。)


2
在Python 3中,字符串是Unicode字符串。它们永远不会被编码。我发现以下文本很有用:joelonsoftware.com/articles/Unicode.html

他想将其保存到文件中。您的答案对此有何帮助?
约翰·马钦

@lutz:是的,我忘记了Unicode是字符映射而不是编码。@John:目前没有足够的信息来了解保存问题。他发错了吗?他没有得到任何错误,但是从外部打开文件时得到了mojibake?没有这些信息,将提供太多可能的解决方案。
JAB

@猫:目前没有任何信息可以知道他得到了什么,更不用说他的储蓄问题了。我已经请他提供一些事实-请参阅我的回答。
约翰·马钦


3

文件包含Unicode字符串

\"message\": \"\\u0410\\u0432\\u0442\\u043e\\u0437\\u0430\\u0446\\u0438\\u044f .....\",

为了我

 f = open("56ad62-json.log", encoding="utf-8")
 qq=f.readline() 

 print(qq)                          
 {"log":\"message\": \"\\u0410\\u0432\\u0442\\u043e\\u0440\\u0438\\u0437\\u0430\\u0446\\u0438\\u044f \\u043f\\u043e\\u043b\\u044c\\u0437\\u043e\\u0432\\u0430\\u0442\\u0435\\u043b\\u044f\"}

(qq.encode().decode("unicode-escape").encode().decode("unicode-escape")) 
# '{"log":"message": "Авторизация пользователя"}\n'

2
即使我只使用它,它也能起作用:result.encode().decode('unicode-escape')
Ammad Khalid

0

对于我的情况,没有答案可用。在这里,我有一个包含unichar字符的字符串变量,在此没有解释的encoding-decode起作用。

如果我在航站楼里

echo "no me llama mucho la atenci\u00f3n"

要么

python3
>>> print("no me llama mucho la atenci\u00f3n")

输出正确:

output: no me llama mucho la atención

但是使用脚本加载此字符串变量无法正常工作。

这是对我的案例起作用的,以防万一:

string_to_convert = "no me llama mucho la atenci\u00f3n"
print(json.dumps(json.loads(r'"%s"' % string_to_convert), ensure_ascii=False))
output: no me llama mucho la atención

您需要导入json
pctripsesp,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.