Questions tagged «unicode»

Unicode是用于文本编码,表示和处理的标准,旨在支持包含所有书写系统,技术符号和标点符号的书写文本所需的所有字符。

12
Emacs模式编辑JSON
有谁知道一个好的Emacs模式来编辑JSON吗?我正在开发的一个应用程序使用基于JSON的通信协议,并且将数据缩进并突出显示语法将对我弄清楚它有很大帮助。
75 json  emacs  unicode 




3
从数据文件中删除非ASCII字符
我有一堆csv文件正在读入R中,并且包含在.rdata格式的package / data文件夹中 。不幸的是,数据中的非ASCII字符未能通过检查。该tools软件包具有两个功能来检查非ASCII字符(showNonASCII和showNonASCIIfile),但我似乎找不到一个要删除/清理的字符。 在探索其他UNIX工具之前,最好在R中完成所有这些工作,以便我可以维护从原始数据到最终产品的完整工作流程。是否有任何现有的软件包/功能可以帮助我摆脱非ASCII字符?

16
如何在Ruby中替换带重音符号的拉丁字符?
我有一个ActiveRecord模型,Foo其中有一个name字段。我希望用户能够按名称搜索,但我希望搜索忽略大小写和任何重音符号。因此,我还要存储一个canonical_name要搜索的字段: class Foo validates_presence_of :name before_validate :set_canonical_name private def set_canonical_name self.canonical_name ||= canonicalize(self.name) if self.name end def canonicalize(x) x.downcase. # something here end end 我需要填写“此处的内容”以替换带重音符号的字符。有没有比这更好的了 x.downcase.gsub(/[àáâãäå]/,'a').gsub(/æ/,'ae').gsub(/ç/, 'c').gsub(/[èéêë]/,'e').... 而且,就此而言,由于我没有使用Ruby 1.9,所以无法将这些Unicode文字放入我的代码中。实际的正则表达式看起来丑陋得多。


12
在Windows控制台应用程序中输出unicode字符串
嗨,我试图将unicode字符串输出到具有iostream的控制台,但失败了。 我发现了这一点: 在c ++控制台应用程序中使用unicode字体 ,此代码段有效。 SetConsoleOutputCP(CP_UTF8); wchar_t s[] = L"èéøÞǽлљΣæča"; int bufferSize = WideCharToMultiByte(CP_UTF8, 0, s, -1, NULL, 0, NULL, NULL); char* m = new char[bufferSize]; WideCharToMultiByte(CP_UTF8, 0, s, -1, m, bufferSize, NULL, NULL); wprintf(L"%S", m); 但是,我没有找到任何方法可以使用iostreams正确输出unicode。有什么建议? 这不起作用: SetConsoleOutputCP(CP_UTF8); utf8_locale = locale(old_locale,new boost::program_options::detail::utf8_codecvt_facet()); wcout.imbue(utf8_locale); wcout << L"¡Hola!" << endl; 编辑 …

1
为什么在失败的int转换中此Python字符串的大小会更改
从这里的推文中: import sys x = 'ñ' print(sys.getsizeof(x)) int(x) #throws an error print(sys.getsizeof(x)) 对于两个getsizeof调用,我们得到74个字节,然后是77个字节。 看来我们从失败的int调用中向对象添加了3个字节。 来自Twitter的更多示例(您可能需要重新启动python才能将大小重置为74): x = 'ñ' y = 'ñ' int(x) print(sys.getsizeof(y)) 77! print(sys.getsizeof('ñ')) int('ñ') print(sys.getsizeof('ñ')) 74,然后77。

1
为什么某些网站的标题中带有?utf8 =✓?
我注意到很多网站在搜索或浏览时都会添加一个名为get的变量utf,并将其设置为选中标记(?utf8=✓)。 两个示例是: Dotabuff的搜索URL包括它。示例:dotabuff.com/search?utf8 =✓&q = PPD Bibme也有它的搜索URL。示例:bibme.org/mla/website-citation/search?utf8 =✓&q = someurl.com
70 url  unicode  utf-8  hyperlink 

4
不可见字符-ASCII
有看不见的字符吗?我已经检查了Google中的不可见字符,并最终得到了许多答案,但我不确定这些答案。Stack Overflow上的人可以告诉我更多有关此的信息吗? 我还检查了Facebook上的个人资料,发现用户的个人资料没有名字吗?这怎么可能?是数据库问题吗?骇客之类的? 当我通过Internet搜索时,发现这200D是一个带有不可见字符的ASCII值。是真的吗

9
获取Python可以编码为的所有编码的列表
我正在编写一个脚本,尝试在Python 2.6中尝试将字节编码为许多不同的编码。有什么方法可以获取可供迭代的可用编码列表? 我尝试执行此操作的原因是因为用户的某些文本编码不正确。有有趣的人物。我知道将它弄乱的Unicode字符。我希望能够给他们一个答案,例如“您的文本编辑器将该字符串解释为X编码,而不是Y编码”。我以为我会尝试使用一种编码对该字符进行编码,然后使用另一种编码再次对其进行解码,然后看看我们是否得到相同的字符序列。 即是这样的: for encoding1, encoding2 in itertools.permutation(encodinglist(), 2): try: unicode_string = my_unicode_character.encode(encoding1).decode(encoding2) except: pass


7
什么时候必须在SQL Server中使用NVARCHAR / NCHAR而不是VARCHAR / CHAR?
我们必须使用Unicode类型时有规则吗? 我已经看到,大多数欧洲语言(德语,意大利语,英语等等)在VARCHAR列的同一数据库中都可以。 我正在寻找类似的东西: 如果您有中文->使用NVARCHAR 如果您有德文和阿拉伯文->使用NVARCHAR 服务器/数据库的整理如何? 我不想像这里建议的那样始终使用NVARCHAR varchar和nvarchar SQL Server数据类型之间的主要性能差异是什么?

4
从JavaScript字符串中删除零宽度空格字符
我接受用户输入(JS代码)并实时执行(处理)它们以显示一些输出。 有时代码具有零宽度的空间,这真的很奇怪。我不知道用户是如何输入的。范例-“(​$".length === 3 我需要能够从JS代码中删除该字符。我该怎么做?还是有其他方法可以执行该JS代码,以使浏览器不考虑零宽度空格字符?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.