Questions tagged «character-encoding»

字符编码是指将字符表示为一系列字节的方式。Web的字符编码在编码标准中定义。

17
有倒置的插入符号吗?
我必须维护大量经典的ASP页面,其中许多页面的表格数据完全没有排序功能。无论数据库查询中使用的原始开发人员是什么顺序,您都将受其束缚。 我想对这些页面进行一些基本的排序,而我正在使用javascript在所有客户端进行此操作。我已经完成了基本脚本,可以按照给定方向按给定方向对给定列上的给定表进行排序,并且只要表受此处遵循的某些约定限制,它就可以正常工作。 我要为用户界面做的只是用插入符号(^)指示排序方向,然后...什么?是否有与插入符号直接相反的特殊字符?这封信v不会完全削减。另外,还有其他可以配对的字符吗?


8
将Unicode文本写入文本文件?
我正在从Google文档中提取数据,进行处理,然后将其写入文件(最终我将其粘贴到Wordpress页面中)。 它具有一些非ASCII符号。如何将这些安全地转换为可以在HTML源代码中使用的符号? 目前,我正在将所有内容都转换为Unicode,将它们全部组合成Python字符串,然后执行以下操作: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最后一行存在编码错误: UnicodeDecodeError:'ascii'编解码器无法解码位置12286的字节0xa0:序数不在范围内(128) 部分解决方案: 此Python运行无错误: row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8")) 但是,如果我打开实际的文本文件,则会看到很多符号,例如: Qur‚Äôan 也许我需要写文本文件以外的东西?

18
您如何在Bash中回显4位Unicode字符?
我想将Unicode骷髅和交叉骨添加到我的shell提示符中(特别是“ SKULL AND CROSSBONES”(U + 2620)),但我无法弄清楚使回声吐出的魔咒,或其他任何东西, 4位Unicode字符。两位数字很容易。例如,echo -e“ \ x55”,。 除了以下答案外,还应注意,很明显,您的终端需要支持Unicode才能使输出符合您的期望。gnome-terminal在这方面做得很好,但是默认情况下不一定打开它。 在macOS的终端应用程序上,转到“首选项”->“编码”,然后选择Unicode(UTF-8)。



10
“ for line in…”导致UnicodeDecodeError:'utf-8'编解码器无法解码字节
这是我的代码, for line in open('u.item'): #read each line 每当我运行此代码时,都会出现以下错误: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 2892: invalid continuation byte 我试图解决这个问题,并在open()中添加了一个额外的参数,代码看起来像; for line in open('u.item', encoding='utf-8'): #read each line 但是,它再次给出相同的错误。那我该怎么办!请帮忙。

6
为什么字符集名称不是常量?
字符集问题本身令人困惑和复杂,但是最重要的是,您必须记住字符集的确切名称。是"utf8"吗 还是"utf-8"?也许"UTF-8"呢?在Internet上搜索代码示例时,将看到上述所有内容。为什么不让它们命名为常数并使用Charset.UTF8呢?

16
我真的需要将“&”编码为“&”吗?
我在网站的中使用&带有HTML5和UTF-8 的' '符号<title>。Google会在其SERP上显示“&”号罚款,标题中的所有浏览器也一样。 http://validator.w3.org给了我这个: &没有启动字符引用。(&可能应该以进行转义&。) 我真的需要做&吗? 我不必为验证页面而对页面验证感到困惑,但我很好奇,希望听到人们对此的看法,以及它是否重要以及为什么。

12
PHP DOMDocument loadHTML无法正确编码UTF-8
我正在尝试使用DOMDocument解析一些HTML,但是当我这样做时,我突然失去了编码(至少对我来说是如此)。 $profile = "<div><p>various japanese characters</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); $divs = $dom->getElementsByTagName('div'); foreach ($divs as $div) { echo $dom->saveHTML($div); } 这段代码的结果是,我得到了一堆不是日语的字符。但是,如果我这样做: echo $profile; 它显示正确。我尝试过saveHTML和saveXML,但都无法正确显示。我正在使用PHP 5.3。 我所看到的: ã¤ãªãã¤å·ã·ã«ã´ã«ã¦ãã¢ã¤ã«ã©ã³ãç³»ã®å®¶åº­ã«ã9人åå¼ã®5çªç®ã¨ãã¦çã¾ãããå½¼ãå«ãã¦4人ã俳åªã«ãªã£ããç¶è¦ªã¯æ¨æã®ã»ã¼ã«ã¹ãã³ã§ãæ¯è¦ªã¯éµä¾¿å±ã®å®¢å®¤ä¿ã ã£ããé«æ ¡æ代ã¯ã­ã£ãã£ã®ã¢ã«ãã¤ãã«å¤ãã¿ãæè²è³éãåããªããã«ããªãã¯ç³»ã®é«æ ¡ã¸é²å­¦ã 应该显示什么: イリノイ州シカゴにて、アイルランド系の家庭に、9人兄弟の5番目として生まれる。彼を含めて4人が俳優になった。父親は木材のセールスマンで、母親は郵便局の客室係だった。高校時代はキャディのアルバイトに勤しみ、教育資金を受けながらカトリック系の高校へ進学 编辑:我已将代码简化为五行,因此您可以自己对其进行测试。 $profile = "<div lang=ja><p>イリノイ州シカゴにて、アイルランド系の家庭に、</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); echo $dom->saveHTML(); echo $profile; 这是返回的html: <div …

6
编码/解码有什么区别?
我从来不确定我了解str / unicode解码和编码之间的区别。 我知道这str().decode()是针对当您有一个字节字符串,并且您知道该字符串具有某种字符编码时,给定该编码名称,它将返回一个unicode字符串。 我知道unicode().encode()根据给定的编码名称将Unicode字符转换为字节字符串。 但我不明白是什么str().encode()以及unicode().decode()是。有人可以解释,也可以更正我在上面遇到的其他错误吗? 编辑: 有几个答案给出了.encode有关字符串处理内容的信息,但似乎没人知道.decodeUnicode的处理内容。

11
将Unicode转换为ASCII且在Python中没有错误
我的代码只是抓取一个网页,然后将其转换为Unicode。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) 但是我得到了UnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 我认为这意味着HTML在某处包含一些错误的Unicode尝试。我可以删除导致问题的任何代码字节而不出错吗?

4
为什么要指定@charset“ UTF-8”;在您的CSS文件中?
我一直将这条指令视为移交给我的众多CSS文件的第一行: @charset "UTF-8"; 它是做什么的,这是必要的规则吗? 另外,如果我在“ head”元素中包含此meta标签,是否就不需要在CSS文件中也包含它了? <meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

11
编码和字符集有什么区别?
我对文本编码和字符集感到困惑。由于许多原因,我在接下来的工作中必须学习非Unicode,非UTF8的知识。 我在电子邮件标头中找到了“ charset”一词,就像在“ ISO-2022-JP”中那样,但是在文本编辑器中没有这样的编码。(我环顾了不同的文本编辑器。) 文本编码和字符集有什么区别?如果您可以向我展示一些用例示例,我将不胜感激。

11
PHP:在不知道原始字符集的情况下将任何字符串转换为UTF-8,或者至少尝试
我有一个与世界各地的客户打交道的应用程序,自然,我希望进入数据库的所有内容都采用UTF-8编码。 对我来说,主要问题是我不知道任何字符串的编码源是什么-它可能来自文本框(<form accept-charset="utf-8">仅在用户实际提交表单时才有用),或者可能是从上传的文本文件中获取,因此我真的无法控制输入。 我需要一个函数或类,以确保进入数据库的内容尽可能采用UTF-8编码。我试过了,iconv(mb_detect_encoding($text), "UTF-8", $text); 但是有问题(如果输入为'fiancée',则返回'fianc')。我已经尝试了很多东西= / 对于文件上传,我喜欢让最终用户指定他们使用的编码,并向他们显示输出结果的预览的想法,但这无助于讨厌的黑客(实际上,这可能会使他们的生活变糟。容易一点)。 我已经阅读了有关该主题的其他SO问题,但是它们似乎都存在细微的差异,例如“我需要解析RSS feed”或“我从网站上抓取数据”(或者实际上是“您不能”)。 但是必须至少尝试一下!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.