Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

16
UnicodeDecodeError:“ ascii”编解码器无法解码位置1的字节0xef
我在尝试将字符串编码为UTF-8时遇到一些问题。我已经尝试了很多事情,包括使用string.encode('utf-8')和unicode(string),但是出现错误: UnicodeDecodeError:'ascii'编解码器无法解码位置1的字节0xef:序数不在范围内(128) 这是我的字符串: (。・ω・。)ノ 我看不出怎么了,知道吗? 编辑:问题是按原样打印字符串无法正确显示。此外,当我尝试将其转换为此错误时: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = '(\xef\xbd\xa1\xef\xbd\xa5\xcf\x89\xef\xbd\xa5\xef\xbd\xa1)\xef\xbe\x89' >>> s1 = s.decode('utf-8') >>> print s1 Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' …
106 python  unicode  utf-8 

3
如何从字符串的中间执行对区域性敏感的“开始于”操作?
我有一个相对模糊的要求,但感觉应该可以使用BCL。 对于上下文,我正在解析Noda Time中的日期/时间字符串。我在输入字符串中的位置保持逻辑光标。因此,尽管完整的字符串可能是“ 2013年1月3日”,但逻辑光标可能位于“ J”处。 现在,我需要解析月份名称,并将其与区域性的所有已知月份名称进行比较: 文化敏感 不区分大小写 只是从光标的位置开始(不晚;我想查看光标是否正在“查看”候选月份名称) 很快 ...然后我需要知道使用了多少个字符 使用的当前代码通常可以正常运行CompareInfo.Compare。实际上是这样的(仅适用于匹配部分-真实代码中有更多代码,但与匹配无关): internal bool MatchCaseInsensitive(string candidate, CompareInfo compareInfo) { return compareInfo.Compare(text, position, candidate.Length, candidate, 0, candidate.Length, CompareOptions.IgnoreCase) == 0; } 但是,这取决于候选对象和我们比较的区域具有相同的长度。在大多数情况下都可以,但是在某些特殊情况下不可以。假设我们有这样的东西: // U+00E9 is a single code point for e-acute var text = "x b\u00e9d y"; int position = 2; …
106 .net  string  unicode 


4
如何遍历Java字符串的unicode代码点?
所以我知道String#codePointAt(int),但是它是由char偏移量而不是由代码点偏移量索引的。 我正在考虑尝试类似的方法: 使用String#charAt(int)得到char的指数 测试是否char在高替代范围内 如果是这样,请使用String#codePointAt(int)以获得代码点,并将索引增加2 如果不是,则使用给定char值作为代码点,并将索引增加1 但是我担心的是 我不确定自然位于高代理范围内的代码点将存储为两个char值还是一个 这似乎是一种遍历字符的可怕的昂贵方法 一定有人想出了更好的东西。
105 java  string  unicode 

12
JavaScript中的字符串长度(以字节为单位)
在我的JavaScript代码中,我需要以以下格式编写一条消息到服务器: <size in bytes>CRLF <data>CRLF 例: 3 foo 数据可能包含unicode字符。我需要将它们作为UTF-8发送。 我正在寻找最跨浏览器的方法来计算JavaScript中字符串的长度(以字节为单位)。 我已经尝试过以此来组成我的有效载荷: return unescape(encodeURIComponent(str)).length + "\n" + str + "\n" 但是对于较旧的浏览器(或UTF-16中的那些浏览器中的字符串?),它不能为我提供准确的结果。 有什么线索吗? 更新: 示例:ЭЭХ! Naïve?UTF-8中字符串的字节长度为15个字节,但是某些浏览器却报告为23个字节。

11
如何使python解释器正确处理字符串操作中的非ASCII字符?
我有一个看起来像这样的字符串: 6Â 918Â 417Â 712 修剪此字符串的明确方法(据我了解Python)只是说该字符串在名为的变量中s,我们得到: s.replace('Â ', '') 这应该够了吧。但是,当然,它抱怨'\xc2'文件blabla.py 中的非ASCII字符未编码。 我从不完全了解如何在不同的编码之间进行切换。 这是代码,它的确与上面的代码相同,但是现在是在上下文中。该文件在记事本中另存为UTF-8,并具有以下标头: #!/usr/bin/python2.4 # -*- coding: utf-8 -*- 代码: f = urllib.urlopen(url) soup = BeautifulSoup(f) s = soup.find('div', {'id':'main_count'}) #making a print 's' here goes well. it shows 6Â 918Â 417Â 712 s.replace('Â ','') save_main_count(s) 它没有比s.replace... 更进一步
104 python  unicode 

9
Python Unicode编码错误
我正在读取和解析Amazon XML文件,而当XML文件显示'时,尝试打印该文件时,出现以下错误: 'ascii' codec can't encode character u'\u2019' in position 16: ordinal not in range(128) 从到目前为止的在线阅读中,该错误是由于XML文件位于UTF-8中引起的,但是Python希望将其作为ASCII编码字符进行处理。有没有简单的方法可以使错误消失并让我的程序在读取时打印XML?
104 python  unicode  ascii  encode 

5
如何在XAML中放入Unicode字符?
我正在尝试这样做: <TextBlock Text="{Binding Path=Text, Converter={StaticResource stringFormatConverter}, ConverterParameter='&\u2014{0}'}" /> 要获得一个-出现在文本的前面。没用 我应该在这里做什么?
104 wpf  xaml  unicode  binding 

8
用Python从文件中读取字符
在文本文件中,有一个字符串“我不喜欢这样”。 但是,当我将其读取为字符串时,它变成“我不这样\ xe2 \ x80 \ x98t”。我了解\ u2018是“'”的Unicode表示形式。我用 f1 = open (file1, "r") text = f1.read() 命令来做阅读。 现在,是否可以以这样的方式读取字符串,即当将其读入字符串时,它是“我不喜欢这样”而不是“我不喜欢这样”吗? 第二编辑:我已经看到有人使用映射来解决此问题,但实际上,没有内置的转换可以将这种ANSI转换为unicode(反之亦然)吗?



4
Python str与unicode类型
使用Python 2.7,我想知道使用type unicode代替真正的优势是什么str,因为它们似乎都能够容纳Unicode字符串。除了能够unicode使用转义字符在字符串中设置Unicode代码之外,还有什么特殊的原因\吗?: 使用以下命令执行模块: # -*- coding: utf-8 -*- a = 'á' ua = u'á' print a, ua 结果:á,á 编辑: 使用Python Shell进行更多测试: >>> a = 'á' >>> a '\xc3\xa1' >>> ua = u'á' >>> ua u'\xe1' >>> ua.encode('utf8') '\xc3\xa1' >>> ua.encode('latin1') '\xe1' >>> ua u'\xe1' 因此,该unicode字符串似乎是使用latin1而不是编码的utf-8,而原始字符串是使用utf-8?编码的 我现在更加困惑!:S
101 python  string  unicode 

4
如何在ggplot2中使用希腊符号?
我的类别需要用希腊字母命名。我正在使用ggplot2,它可以很好地处理数据。不幸的是,我无法弄清楚如何将这些希腊符号放在x轴上(在刻度线处)并使它们出现在图例中。有什么办法吗? 更新:我看了一下链接,但是,没有描述好的方法来完成我想做的事情。
101 r  graphics  unicode  utf-8  ggplot2 

7
如何使用Python删除非ASCII字符但保留句点和空格?
我正在使用.txt文件。我希望文件中的文本字符串不包含非ASCII字符。但是,我想留空格和句点。目前,我也正在剥离它们。这是代码: def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path): f=open(file_path,'r') data=f.read() f.close() filtered_data=filter(onlyascii, data) filtered_data = filtered_data.lower() return filtered_data 我应该如何修改onlyascii()以保留空格和句点?我想这并不太复杂,但我无法弄清楚。
100 python  text  unicode  filter  ascii 

3
重定向到文件时出现UnicodeDecodeError
我在Ubuntu终端(将编码设置为utf-8)中运行了两次,分别使用./test.py,然后使用./test.py >out.txt: uni = u"\u001A\u0BC3\u1451\U0001D10C" print uni 如果没有重定向,它将打印垃圾。通过重定向,我得到了UnicodeDecodeError。有人可以解释为什么仅在第二种情况下才得到错误,或者更好地给出两种情况下幕后情况的详细解释吗?
100 python  unicode 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.