程序设计 unicode

12

Emacs模式编辑JSON

有谁知道一个好的Emacs模式来编辑JSON吗？我正在开发的一个应用程序使用基于JSON的通信协议，并且将数据缩进并突出显示语法将对我弄清楚它有很大帮助。

75 json emacs unicode

4

为什么用“ U +”来指定Unicode代码点？

为什么Unicode代码点显示为？U+<codepoint> 例如，U+2202表示字符∂。为什么不U-（破折号或连字符）或其他内容呢？

75 unicode codepoint

2

为什么红色的心形表情符号需要两个代码点，而其他彩色的心形需要一个代码点？

看来，红色的心形表情符号（❤️）“ \ u2764 \ uFE0F”需要两个Unicode代码点，特别是“沉重的黑色心形”后跟一个“变体选择器”。但是，蓝色💙，绿色yellow，黄色and和紫色💜都有各自的单个代码点。为什么红色如此不同？

75 unicode emoji codepoint

7

所有Unicode的打开/关闭括号列表？

每个unicode类括号字符（包括例如{}[]()<>）的列表是什么？搜索Unicode字符的好方法是什么？

74 unicode square-bracket braces parentheses curly-brackets

3

从数据文件中删除非ASCII字符

我有一堆csv文件正在读入R中，并且包含在.rdata格式的package / data文件夹中。不幸的是，数据中的非ASCII字符未能通过检查。该tools软件包具有两个功能来检查非ASCII字符（showNonASCII和showNonASCIIfile），但我似乎找不到一个要删除/清理的字符。在探索其他UNIX工具之前，最好在R中完成所有这些工作，以便我可以维护从原始数据到最终产品的完整工作流程。是否有任何现有的软件包/功能可以帮助我摆脱非ASCII字符？

74 r unicode ascii non-ascii-characters

16

如何在Ruby中替换带重音符号的拉丁字符？

我有一个ActiveRecord模型，Foo其中有一个name字段。我希望用户能够按名称搜索，但我希望搜索忽略大小写和任何重音符号。因此，我还要存储一个canonical_name要搜索的字段： class Foo validates_presence_of :name before_validate :set_canonical_name private def set_canonical_name self.canonical_name ||= canonicalize(self.name) if self.name end def canonicalize(x) x.downcase. # something here end end 我需要填写“此处的内容”以替换带重音符号的字符。有没有比这更好的了 x.downcase.gsub(/[àáâãäå]/,'a').gsub(/æ/,'ae').gsub(/ç/, 'c').gsub(/[èéêë]/,'e').... 而且，就此而言，由于我没有使用Ruby 1.9，所以无法将这些Unicode文字放入我的代码中。实际的正则表达式看起来丑陋得多。

73 ruby-on-rails ruby activerecord unicode utf-8

8

Java类名称中的有效字符

Java类名称中哪些字符有效？还有哪些其他规则管理Java类名称（例如，Java类名称不能以数字开头）？

72 java class unicode naming-conventions invalid-characters

12

在Windows控制台应用程序中输出unicode字符串

嗨，我试图将unicode字符串输出到具有iostream的控制台，但失败了。我发现了这一点：在c ++控制台应用程序中使用unicode字体，此代码段有效。 SetConsoleOutputCP(CP_UTF8); wchar_t s[] = L"èéøÞǽлљΣæča"; int bufferSize = WideCharToMultiByte(CP_UTF8, 0, s, -1, NULL, 0, NULL, NULL); char* m = new char[bufferSize]; WideCharToMultiByte(CP_UTF8, 0, s, -1, m, bufferSize, NULL, NULL); wprintf(L"%S", m); 但是，我没有找到任何方法可以使用iostreams正确输出unicode。有什么建议？这不起作用： SetConsoleOutputCP(CP_UTF8); utf8_locale = locale(old_locale,new boost::program_options::detail::utf8_codecvt_facet()); wcout.imbue(utf8_locale); wcout << L"¡Hola!" << endl; 编辑 …

72 c++ unicode iostream windows-console

1

为什么在失败的int转换中此Python字符串的大小会更改

从这里的推文中： import sys x = 'ñ' print(sys.getsizeof(x)) int(x) #throws an error print(sys.getsizeof(x)) 对于两个getsizeof调用，我们得到74个字节，然后是77个字节。看来我们从失败的int调用中向对象添加了3个字节。来自Twitter的更多示例（您可能需要重新启动python才能将大小重置为74）： x = 'ñ' y = 'ñ' int(x) print(sys.getsizeof(y)) 77！ print(sys.getsizeof('ñ')) int('ñ') print(sys.getsizeof('ñ')) 74，然后77。

70 python string python-3.x unicode python-internals

1

为什么某些网站的标题中带有？utf8 =✓？

我注意到很多网站在搜索或浏览时都会添加一个名为get的变量utf，并将其设置为选中标记（?utf8=✓）。两个示例是： Dotabuff的搜索URL包括它。示例：dotabuff.com/search？utf8 =✓＆q = PPD Bibme也有它的搜索URL。示例：bibme.org/mla/website-citation/search？utf8 =✓＆q = someurl.com

70 url unicode utf-8 hyperlink

4

不可见字符-ASCII

有看不见的字符吗？我已经检查了Google中的不可见字符，并最终得到了许多答案，但我不确定这些答案。Stack Overflow上的人可以告诉我更多有关此的信息吗？我还检查了Facebook上的个人资料，发现用户的个人资料没有名字吗？这怎么可能？是数据库问题吗？骇客之类的？当我通过Internet搜索时，发现这200D是一个带有不可见字符的ASCII值。是真的吗

70 facebook unicode character ascii

9

获取Python可以编码为的所有编码的列表

我正在编写一个脚本，尝试在Python 2.6中尝试将字节编码为许多不同的编码。有什么方法可以获取可供迭代的可用编码列表？我尝试执行此操作的原因是因为用户的某些文本编码不正确。有有趣的人物。我知道将它弄乱的Unicode字符。我希望能够给他们一个答案，例如“您的文本编辑器将该字符串解释为X编码，而不是Y编码”。我以为我会尝试使用一种编码对该字符进行编码，然后使用另一种编码再次对其进行解码，然后看看我们是否得到相同的字符序列。即是这样的： for encoding1, encoding2 in itertools.permutation(encodinglist(), 2): try: unicode_string = my_unicode_character.encode(encoding1).decode(encoding2) except: pass

70 python unicode encoding character-encoding

3

您如何正确使用WideCharToMultiByte

我已经阅读了WideCharToMultiByte上的文档，但仍受此参数限制： lpMultiByteStr [out] Pointer to a buffer that receives the converted string. 我不太确定如何正确初始化变量并将其输入到函数中

70 c++ unicode character-encoding codepages

7

什么时候必须在SQL Server中使用NVARCHAR / NCHAR而不是VARCHAR / CHAR？

我们必须使用Unicode类型时有规则吗？我已经看到，大多数欧洲语言（德语，意大利语，英语等等）在VARCHAR列的同一数据库中都可以。我正在寻找类似的东西：如果您有中文->使用NVARCHAR 如果您有德文和阿拉伯文->使用NVARCHAR 服务器/数据库的整理如何？我不想像这里建议的那样始终使用NVARCHAR varchar和nvarchar SQL Server数据类型之间的主要性能差异是什么？

69 sql-server unicode collation nvarchar

4

从JavaScript字符串中删除零宽度空格字符

我接受用户输入（JS代码）并实时执行（处理）它们以显示一些输出。有时代码具有零宽度的空间，这真的很奇怪。我不知道用户是如何输入的。范例-“($".length === 3 我需要能够从JS代码中删除该字符。我该怎么做？还是有其他方法可以执行该JS代码，以使浏览器不考虑零宽度空格字符？

68 javascript unicode

Questions tagged «unicode»