Questions tagged «utf-8»

UTF-8是一种字符编码,它使用一个到四个字节的字节序列来描述每个Unicode代码点。它与ASCII向后兼容,同时仍支持所有Unicode代码点的表示。

5
URL编码Unicode字符的正确方法是什么?
我知道非标准的%uxxxx方案,但这似乎不是明智的选择,因为该方案已被W3C拒绝。 一些有趣的例子: 心性。如果我在浏览器中输入以下内容: http://www.google.com/search?q=♥ 然后复制并粘贴它,我看到这个网址 http://www.google.com/search?q=%E2%99%A5 这似乎使Firefox(或Safari)正在执行此操作。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' 这很有意义,除了不能用Latin-1编码的东西(例如三点字符)。 … 如果我输入网址 http://www.google.com/search?q=… 到我的浏览器,然后复制并粘贴,我得到 http://www.google.com/search?q=%E2%80%A6 背部。这似乎是这样做的结果 urllib.quote_plus(x.encode("utf-8")) 这很有意义,因为…无法使用Latin-1进行编码。 但是对于我来说,这还不清楚,浏览器如何知道是使用UTF-8还是Latin-1进行解码。 由于这似乎是模棱两可的: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 可以,所以我不知道浏览器如何确定是使用UTF-8还是Latin-1对其进行解码。 使用我需要处理的特殊字符正确的做法是什么?

10
UnicodeDecodeError:'ascii'编解码器无法解码位置2的字节0xd1:序数不在范围内(128)
我正在尝试使用其中包含一些非标准字符的超大型数据集。根据工作规范,我需要使用unicode,但我感到困惑。(这很可能做错了。) 我使用以下方式打开CSV: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') 然后,我尝试使用以下代码对其进行编码: name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23]) 我正在对除lat和lng以外的所有内容进行编码,因为它们需要发送到API。当我运行程序以将数据集解析为可以使用的内容时,将获得以下Traceback。 Traceback (most recent call last): File "push_into_db.py", line 80, in <module> main() File "push_into_db.py", line 74, in main district_map = buildDistrictSchoolMap() File "push_into_db.py", line 32, in buildDistrictSchoolMap county=row[25].encode('utf-8'), lat=row[22], lng=row[23]) UnicodeDecodeError: …
107 python  django  utf-8 

16
UnicodeDecodeError:“ ascii”编解码器无法解码位置1的字节0xef
我在尝试将字符串编码为UTF-8时遇到一些问题。我已经尝试了很多事情,包括使用string.encode('utf-8')和unicode(string),但是出现错误: UnicodeDecodeError:'ascii'编解码器无法解码位置1的字节0xef:序数不在范围内(128) 这是我的字符串: (。・ω・。)ノ 我看不出怎么了,知道吗? 编辑:问题是按原样打印字符串无法正确显示。此外,当我尝试将其转换为此错误时: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = '(\xef\xbd\xa1\xef\xbd\xa5\xcf\x89\xef\xbd\xa5\xef\xbd\xa1)\xef\xbe\x89' >>> s1 = s.decode('utf-8') >>> print s1 Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' …
106 python  unicode  utf-8 


2
将PowerShell的默认输出编码更改为UTF-8
默认情况下,当您将命令的输出重定向到文件或将其通过管道传递到PowerShell中的其他内容时,编码为UTF-16,这没有用。我希望将其更改为UTF-8。 可以根据具体情况通过将>foo.txt语法替换为来完成| out-file foo.txt -encoding utf8此操作,但这很麻烦每次都要重复。 在PowerShell中进行设置的持久方法是将它们放入其中\Users\me\Documents\WindowsPowerShell\profile.ps1。我已验证该文件确实在启动时执行。 据说可以设置输出编码,$PSDefaultParameterValues = @{'Out-File:Encoding' = 'utf8'}但是我已经尝试过了,但是没有效果。 https://blogs.msdn.microsoft.com/powershell/2006/12/11/outputencoding-to-the-rescue/讨论$OutputEncoding乍一看似乎应该是相关的,但随后讨论的是编码输出以ASCII表示,这实际上不是实际情况。 如何将PowerShell设置为使用UTF-8?

8
C#将字符串从UTF-8转换为ISO-8859-1(Latin1)H
我已经用谷歌搜索了这个话题,并且已经查看了所有答案,但还是不明白。 基本上,我需要将UTF-8字符串转换为ISO-8859-1,并使用以下代码进行操作: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); 我的源字符串是 Message = "ÄäÖöÕõÜü" 但是不幸的是我的结果字符串变成了 msg = "Ã?äÃ?öÃ?õÃ?ü 我在这里做错了什么?
103 c#  .net  encoding  utf-8  iso-8859-1 


4
如何在ggplot2中使用希腊符号?
我的类别需要用希腊字母命名。我正在使用ggplot2,它可以很好地处理数据。不幸的是,我无法弄清楚如何将这些希腊符号放在x轴上(在刻度线处)并使它们出现在图例中。有什么办法吗? 更新:我看了一下链接,但是,没有描述好的方法来完成我想做的事情。
101 r  graphics  unicode  utf-8  ggplot2 

6
使用StringWriter进行XML序列化
我目前正在寻找一种简单的方法来序列化对象(在C#3中)。 我在Google上搜索了一些示例,并提出了类似的内容: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); xs.Serialize ( xmlTextWriter, myObject); string result = Encoding.UTF8.GetString(memoryStream .ToArray()); 阅读了这个问题后,我问自己,为什么不使用StringWriter?似乎容易得多。 XmlSerializer ser = new XmlSerializer(typeof(MyObject)); StringWriter writer = new StringWriter(); ser.Serialize(writer, myObject); …


3
将InputStream读取为UTF-8
我正在尝试text/plain逐行从Internet 上读取文件。我现在拥有的代码是: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); } 我正在使用文件test.txt包含¡Hélló!,以测试编码。 当我查看OutputStream(out)时,看到的是> ¬°H√©ll√≥!。我不相信这是有问题的,OutputStream因为我可以做到out.println("é");没有问题。 对于InputStream作为UTF-8的阅读形式有什么想法吗?谢谢!

5
示例无效的utf8字符串?
我正在测试一些代码如何处理错误数据,并且我需要一些无效UTF-8的字节序列。 您能发表一些理想的解释,为什么它们不好/在哪里得到的?


11
用BOM搜索UTF-8文件的简便方法?
为了进行调试,我需要在目录中递归搜索所有以UTF-8字节顺序标记(BOM)开头的文件。我当前的解决方案是一个简单的shell脚本: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" fi done 或者,如果您希望使用简短的,难以理解的单线: find -type f|while read file;do [ "`head -c3 -- "$file"`" == $'\xef\xbb\xbf' ] && echo "found BOM in: $file";done 它不适用于包含换行符的文件名,但是无论如何都不会出现此类文件。 有没有更短或更优雅的解决方案? 是否有任何有趣的文本编辑器或文本编辑器宏?
94 php  utf-8  shell  text-editor 

9
使用Python读取UTF8 CSV文件
我正在尝试使用Python读取带重音字符的CSV文件(仅法语和/或西班牙语字符)。基于csvreader的Python 2.5文档(http://docs.python.org/library/csv.html),我提出了以下代码来读取CSV文件,因为csvreader仅支持ASCII。 def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as UTF-8: csv_reader = csv.reader(utf_8_encoder(unicode_csv_data), dialect=dialect, **kwargs) for row in csv_reader: # decode UTF-8 back to Unicode, cell by cell: yield [unicode(cell, 'utf-8') for cell in row] def utf_8_encoder(unicode_csv_data): for line in unicode_csv_data: yield line.encode('utf-8') filename = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.