程序设计 unicode

6

有没有时，你应该实现一个python约定__str__()对__unicode__()。我已经看到类重写的__unicode__()频率高于，__str__()但似乎不一致。当实施一个相对于另一个更好时，是否有特定的规则？实施这两种方法是否必要/良好做法？

213 python string unicode conventions

12

用Markdown语法表示目录和文件结构

我想在我的Jekyll博客文章中描述目录和文件结构，Markdown是否提供一种输出此类信息的简洁方法？例如，您可以在 Jekyll网站的此链接上看到目录和文件结构非常整洁地输出在页面上： . ├── _config.yml ├── _drafts │ ├── begin-with-the-crazy-ideas.textile │ └── on-simplicity-in-technology.markdown ├── _includes │ ├── footer.html │ └── header.html ├── _layouts │ ├── default.html │ └── post.html ├── _posts │ ├── 2007-10-29-why-every-programmer-should-play-nethack.textile │ └── 2009-04-26-barcamp-boston-4-roundup.textile ├── _data │ └── members.yml ├── _site └── index.html 我相信上面的行块字符是Unicode（如此处答案所描述），但是我不确定Markdown或其他浏览器将如何处理它们。我希望Markdown包括一些这样做的方法，该方法可能输出为上面的Unicode字符。

213 unicode markdown jekyll

16

如何检查Python中的字符串是否为ASCII？

我想检查字符串是否为ASCII。我知道ord()，但是当我尝试时ord('é')，我知道了TypeError: ord() expected a character, but string of length 2 found。我了解这是由我构建Python的方式引起的（如ord()的文档中所述）。还有另一种检查方法吗？

211 python string unicode ascii

7

Java标识符中的“连接字符”是什么？

我正在阅读SCJP，对此行有疑问：标识符必须以字母，货币字符（$）或下划线（_）之类的连接字符开头。标识符不能以数字开头！它指出有效的标识符名称可以以下划线之类的连接字符开头。我以为下划线是唯一有效的选择？还有哪些其他连接字符？

208 java unicode identifier scjp

16

如何将wstring转换为string？

问题是如何将wstring转换为string？我有下一个例子： #include <string> #include <iostream> int main() { std::wstring ws = L"Hello"; std::string s( ws.begin(), ws.end() ); //std::cout <<"std::string = "<<s<<std::endl; std::wcout<<"std::wstring = "<<ws<<std::endl; std::cout <<"std::string = "<<s<<std::endl; } 带有注释行的输出是： std::string = Hello std::wstring = Hello std::string = Hello 但不只是： std::wstring = Hello 示例中有什么问题吗？我可以进行上述转换吗？编辑新的示例（考虑了一些答案）是 #include <string> #include …

204 c++ unicode stl wstring

9

如何在Python中将字符串转换为utf-8

我有一个将utf-8字符发送到我的Python服务器的浏览器，但是当我从查询字符串中检索到它时，Python返回的编码是ASCII。如何将纯字符串转换为utf-8？注意：从网络传递的字符串已经是UTF-8编码的，我只想让Python将其视为UTF-8而不是ASCII。

192 python python-2.7 unicode utf-8

5

是否存在表示“搜索”的Unicode字形符号[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引文回答。 4年前关闭。改善这个问题 Unicode具有一百万个类似图标的字形，但是很难搜索。是否有看起来像“双目”或“放大镜”的Unicode字形？还是有用于Unicode的“搜索”符号？

191 unicode symbols html-entities

5

C ++ 11支持Unicode的程度如何？

我已经听说C ++ 11支持Unicode。关于此的几个问题： C ++标准库对Unicode的支持程度如何？请问std::string该怎么办？如何使用？潜在的问题在哪里？

183 c++ unicode c++11

6

编码/解码有什么区别？

我从来不确定我了解str / unicode解码和编码之间的区别。我知道这str().decode()是针对当您有一个字节字符串，并且您知道该字符串具有某种字符编码时，给定该编码名称，它将返回一个unicode字符串。我知道unicode().encode()根据给定的编码名称将Unicode字符转换为字节字符串。但我不明白是什么str().encode()以及unicode().decode()是。有人可以解释，也可以更正我在上面遇到的其他错误吗？编辑：有几个答案给出了.encode有关字符串处理内容的信息，但似乎没人知道.decodeUnicode的处理内容。

180 python string unicode character-encoding python-2.x

11

将Unicode转换为ASCII且在Python中没有错误

我的代码只是抓取一个网页，然后将其转换为Unicode。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) 但是我得到了UnicodeDecodeError： Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 我认为这意味着HTML在某处包含一些错误的Unicode尝试。我可以删除导致问题的任何代码字节而不出错吗？

177 python unicode utf-8 character-encoding ascii

1

Ruby on Rails 3表单中的_snowman参数是什么？

在Ruby on Rails 3（当前使用Beta 4）中，我看到使用form_tag或form_for帮助器时，会显示一个隐藏字段，其名称_snowman为field（Unicode \ x9731）。那么，这是为了什么呢？

174 ruby-on-rails forms unicode

9

（grep）正则表达式以匹配非ASCII字符？

在Linux上，我有一个包含大量文件的目录。其中一些具有非ASCII字符，但它们都是有效的UTF-8。一个程序有一个错误，阻止它与非ASCII文件名一起使用，我必须找出有多少受影响。我打算这样做find，然后执行grep打印非ASCII字符，然后执行a wc -l查找数字。不必是grep；我可以使用任何标准的Unix 正则表达式，例如Perl，sed，AWK等。但是，是否存在“不是ASCII字符的任何字符”的正则表达式？

169 regex unicode grep ascii

4

列数据类型中BYTE和CHAR之间的区别

在Oracle中，之间有什么区别： CREATE TABLE CLIENT ( NAME VARCHAR2(11 BYTE), ID_CLIENT NUMBER ) 和 CREATE TABLE CLIENT ( NAME VARCHAR2(11 CHAR), -- or even VARCHAR2(11) ID_CLIENT NUMBER )

166 sql oracle unicode varchar

9

重音字符的具体Javascript正则表达式（变音符号）

我已经研究了Stack Overflow（替换字符。eh，JavaScript如何不遵循有关RegExp的Unicode标准等），还没有真正找到问题的具体答案： How can JavaScript match for accented characters (those with diacritical marks)? 我正在强制UI中的字段匹配以下格式：（last_name, first_name 最后一个[逗号空间]首先），并且我想提供对变音符号的支持，但是显然在JavaScript中，它比其他语言/平台要难一些。这是我的原始版本，直到我想添加变音符号支持： /^[a-zA-Z]+,\s[a-zA-Z]+$/ 目前，我正在讨论增加支持的三种方法之一，所有这些方法我都已经过测试和工作（至少在某种程度上，我真的不知道第二种方法的“范围”是什么）。他们来了：明确列出我希望接受的所有带重音符号的字符（花边和过于复杂）： var accentedCharacters = "àèìòùÀÈÌÒÙáéíóúýÁÉÍÓÚÝâêîôûÂÊÎÔÛãñõÃÑÕäëïöüÿÄËÏÖÜŸçÇßØøÅåÆæœ"; // Build the full regex var regex = "^[a-zA-Z" + accentedCharacters + "]+,\\s[a-zA-Z" + accentedCharacters + "]+$"; // Create a RegExp from the string version regexCompiled …

166 javascript regex unicode

8

PHP字符串中的Unicode字符

这个问题看起来很尴尬，但我一直找不到答案。与下面的C＃代码行等效的PHP是什么？ string str = "\u1000"; 此示例创建一个带有单个Unicode字符的字符串，该字符串的“ Unicode数值”为十六进制的1000（十进制的4096）。也就是说，在PHP中，如何创建一个具有“ Unicode数值”已知的Unicode字符的字符串？

163 php unicode

Questions tagged «unicode»