Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

6
Python __str__与__unicode__
有没有时,你应该实现一个python约定__str__()对__unicode__()。我已经看到类重写的__unicode__()频率高于,__str__()但似乎不一致。当实施一个相对于另一个更好时,是否有特定的规则?实施这两种方法是否必要/良好做法?

12
用Markdown语法表示目录和文件结构
我想在我的Jekyll博客文章中描述目录和文件结构,Markdown是否提供一种输出此类信息的简洁方法? 例如,您可以在 Jekyll网站的此链接上看到目录和文件结构非常整洁地输出在页面上: . ├── _config.yml ├── _drafts │ ├── begin-with-the-crazy-ideas.textile │ └── on-simplicity-in-technology.markdown ├── _includes │ ├── footer.html │ └── header.html ├── _layouts │ ├── default.html │ └── post.html ├── _posts │ ├── 2007-10-29-why-every-programmer-should-play-nethack.textile │ └── 2009-04-26-barcamp-boston-4-roundup.textile ├── _data │ └── members.yml ├── _site └── index.html 我相信上面的行块字符是Unicode(如此处答案所描述),但是我不确定Markdown或其他浏览器将如何处理它们。我希望Markdown包括一些这样做的方法,该方法可能输出为上面的Unicode字符。
213 unicode  markdown  jekyll 

16
如何检查Python中的字符串是否为ASCII?
我想检查字符串是否为ASCII。 我知道ord(),但是当我尝试时ord('é'),我知道了TypeError: ord() expected a character, but string of length 2 found。我了解这是由我构建Python的方式引起的(如ord()的文档中所述)。 还有另一种检查方法吗?
211 python  string  unicode  ascii 

7
Java标识符中的“连接字符”是什么?
我正在阅读SCJP,对此行有疑问: 标识符必须以字母,货币字符($)或下划线(_)之类的连接字符开头。标识符不能以数字开头! 它指出有效的标识符名称可以以下划线之类的连接字符开头。我以为下划线是唯一有效的选择?还有哪些其他连接字符?
208 java  unicode  identifier  scjp 

16
如何将wstring转换为string?
问题是如何将wstring转换为string? 我有下一个例子: #include <string> #include <iostream> int main() { std::wstring ws = L"Hello"; std::string s( ws.begin(), ws.end() ); //std::cout <<"std::string = "<<s<<std::endl; std::wcout<<"std::wstring = "<<ws<<std::endl; std::cout <<"std::string = "<<s<<std::endl; } 带有注释行的输出是: std::string = Hello std::wstring = Hello std::string = Hello 但不只是: std::wstring = Hello 示例中有什么问题吗?我可以进行上述转换吗? 编辑 新的示例(考虑了一些答案)是 #include <string> #include …
204 c++  unicode  stl  wstring 

9
如何在Python中将字符串转换为utf-8
我有一个将utf-8字符发送到我的Python服务器的浏览器,但是当我从查询字符串中检索到它时,Python返回的编码是ASCII。如何将纯字符串转换为utf-8? 注意:从网络传递的字符串已经是UTF-8编码的,我只想让Python将其视为UTF-8而不是ASCII。

5
是否存在表示“搜索”的Unicode字形符号[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引文回答。 4年前关闭。 改善这个问题 Unicode具有一百万个类似图标的字形,但是很难搜索。 是否有看起来像“双目”或“放大镜”的Unicode字形?还是有用于Unicode的“搜索”符号?


6
编码/解码有什么区别?
我从来不确定我了解str / unicode解码和编码之间的区别。 我知道这str().decode()是针对当您有一个字节字符串,并且您知道该字符串具有某种字符编码时,给定该编码名称,它将返回一个unicode字符串。 我知道unicode().encode()根据给定的编码名称将Unicode字符转换为字节字符串。 但我不明白是什么str().encode()以及unicode().decode()是。有人可以解释,也可以更正我在上面遇到的其他错误吗? 编辑: 有几个答案给出了.encode有关字符串处理内容的信息,但似乎没人知道.decodeUnicode的处理内容。

11
将Unicode转换为ASCII且在Python中没有错误
我的代码只是抓取一个网页,然后将其转换为Unicode。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) 但是我得到了UnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 我认为这意味着HTML在某处包含一些错误的Unicode尝试。我可以删除导致问题的任何代码字节而不出错吗?


9
(grep)正则表达式以匹配非ASCII字符?
在Linux上,我有一个包含大量文件的目录。其中一些具有非ASCII字符,但它们都是有效的UTF-8。一个程序有一个错误,阻止它与非ASCII文件名一起使用,我必须找出有多少受影响。我打算这样做find,然后执行grep打印非ASCII字符,然后执行a wc -l查找数字。不必是grep;我可以使用任何标准的Unix 正则表达式,例如Perl,sed,AWK等。 但是,是否存在“不是ASCII字符的任何字符”的正则表达式?
169 regex  unicode  grep  ascii 


9
重音字符的具体Javascript正则表达式(变音符号)
我已经研究了Stack Overflow(替换字符。eh,JavaScript如何不遵循有关RegExp的Unicode标准等),还没有真正找到问题的具体答案: How can JavaScript match for accented characters (those with diacritical marks)? 我正在强制UI中的字段匹配以下格式:(last_name, first_name 最后一个[逗号空间]首先),并且我想提供对变音符号的支持,但是显然在JavaScript中,它比其他语言/平台要难一些。 这是我的原始版本,直到我想添加变音符号支持: /^[a-zA-Z]+,\s[a-zA-Z]+$/ 目前,我正在讨论增加支持的三种方法之一,所有这些方法我都已经过测试和工作(至少在某种程度上,我真的不知道第二种方法的“范围”是什么)。他们来了: 明确列出我希望接受的所有带重音符号的字符(花边和过于复杂): var accentedCharacters = "àèìòùÀÈÌÒÙáéíóúýÁÉÍÓÚÝâêîôûÂÊÎÔÛãñõÃÑÕäëïöüÿÄËÏÖÜŸçÇßØøÅåÆæœ"; // Build the full regex var regex = "^[a-zA-Z" + accentedCharacters + "]+,\\s[a-zA-Z" + accentedCharacters + "]+$"; // Create a RegExp from the string version regexCompiled …

8
PHP字符串中的Unicode字符
这个问题看起来很尴尬,但我一直找不到答案。 与下面的C#代码行等效的PHP是什么? string str = "\u1000"; 此示例创建一个带有单个Unicode字符的字符串,该字符串的“ Unicode数值”为十六进制的1000(十进制的4096)。 也就是说,在PHP中,如何创建一个具有“ Unicode数值”已知的Unicode字符的字符串?
163 php  unicode 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.