Questions tagged «unicode»

Unicode是一种计算行业标准,用于对世界上大多数书写系统中表示的文本进行一致的编码,表示和处理。

6
Gnome终端配置文件可以默认使用UTF-8吗?
我在Ubuntu(我认为)系统上。我没有 root,所以无法更改语言环境。我想让我的默认终端配置文件默认使用UTF-8。应该有一种方法可以做到这一点,无论是在.gconf/apps/gnome-terminal/目录中的某个地方,还是在环境变量之内。但是,我似乎找不到它。 编辑更多详细信息: 在终端中,我有: grid-unv55$ locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC="en_US.UTF-8" LC_TIME="en_US.UTF-8" LC_COLLATE="en_US.UTF-8" LC_MONETARY="en_US.UTF-8" LC_MESSAGES="en_US.UTF-8" LC_PAPER="en_US.UTF-8" LC_NAME="en_US.UTF-8" LC_ADDRESS="en_US.UTF-8" LC_TELEPHONE="en_US.UTF-8" LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= grid-unv55$ gnome-terminal 当尝试在该新终端中添加更多UTF文档时,我得到: \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd \noise:bgspeech \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd 在我的屏幕上显示为点。(uffds是剪切并粘贴的。我在其中留下了“ \ noise:bgspeech”,以便您可以正确地剪切并粘贴ascii)

3
有写Unicode字符的通用方法吗?
有时我想在各种程序(例如vim,Chrome(就像现在!)或LibreOffice)中编写特殊的Unicode字符,例如破折号(-)。 在LibreOffice中,我可以通过“插入”菜单下的专用对话框来实现此目的。其他程序似乎没有内置的方式。在这种情况下,我的解决方案是在Wikipedia上查找字符,将其复制并粘贴。 是否有一种通用方法可以在任何接受Linux中文本输入的程序中编写Unicode字符,而不必从已经打印的位置进行复制和粘贴?


6
如何正确解压缩具有希伯来语名称的文件的ZIP存档?
有人给我发送了一个ZIP文件,其中包含带有希伯来语名称的文件(并在Windows上创建,不确定使用哪种工具)。我在Debian Stretch上使用LXDE。Gnome存档管理器设法将文件解压缩,但是希伯来语字符显示为乱码。我想我正在将UTF-8八位字节扩展为Unicode字符,例如,我有一个文件,该文件的名称包含四个字符和一个.doc足够的字符,这些字符是:0x008E 0x0087 0x008E 0x0085。使用命令行解压缩实用程序甚至更糟-它拒绝完全解压缩,并抱怨“无效或不完整的多字节或宽字符”。 因此,我的问题是: 是否有另一个解压缩实用程序将使用正确的名称解压缩我的文件? 压缩文件的方式是否存在问题,或者仅仅是ZIP实现的不兼容?甚至是Linux ZIP实用程序的功能/错误? 使用乱码解压缩后,如何获取正确的文件名?

2
为什么有些Unicode字符无法打印到我的终端上?
我正在使用Adobe Source Code Pro字体通过简单的终端运行Arch Linux。我的语言环境已正确设置为LANG=en_US.UTF-8。 我想将代表扑克牌的Unicode字符打印到我的终端上。我正在使用Wikipedia作参考。 卡套装的Unicode字符可以正常工作。例如,发行 $ printf "\u2660" 在屏幕上打印黑色的心。 但是,我在使用特定的纸牌时遇到了麻烦。发行 $ printf "\u1F0A1" 打印符号Ἂ1而不是黑桃🂡。怎么了 这个问题在多个终端(urxvt,xterm,白蚁)和我尝试过的每种字体(DejaVu,Inconsolata)上仍然存在。
16 bash  fonts  unicode  printf 


3
如何将U + xxxxx代码指定的表情转换为utf-8?
表情符号似乎是使用U + xxxxx的格式指定的, 其中每个x是一个十六进制数字。 例如,U + 1F615是“困惑的面孔” 的正式Unicode联盟代码code 由于我经常感到困惑,所以我对这个符号有很强的亲和力。 该U + 1F615表示是混淆我,因为我认为有可能为Unicode字符的唯一编码所需的8,16,24或32位,而5个十六进制数字需要5×4 = 20比特。 我发现这个符号似乎由bash中完全不同的十六进制字符串表示: $echo -n 😕 | hexdump 0000000 f0 9f 98 95 0000004 $echo -e "\xf0\x9f\x98\x95" 😕 $PS1=$'\xf0\x9f\x98\x95 >' 😕 > 我本来希望U + 1F615转换为\ x00 \ x01 \ xF6 \ x15之类的东西。 我看不到这两种编码之间的关系吗? 当我在正式的Unicode联盟列表中查找符号时,我希望能够直接使用该代码,而不必以这种乏味的方式手动将其转换。即 在某些网页上找到符号 将其复制到Web浏览器的剪贴板 将其粘贴到bash中以通过十六进制转储进行回显以发现REAL代码。 我可以使用此20位代码来确定32位代码是什么吗? …

2
是否知道utf的coreutils?
cut今天使用时,我发现它不会将UTF-8字符视为字符,而是3个字符,因为它的长度为3个字节。 对于许多工具来说,这似乎通常是正确的。 是否有支持coreutilsUTF-8的版本? 我的locale输出: LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC="en_US.UTF-8" LC_TIME="en_US.UTF-8" LC_COLLATE="en_US.UTF-8" LC_MONETARY="en_US.UTF-8" LC_MESSAGES="en_US.UTF-8" LC_PAPER="en_US.UTF-8" LC_NAME="en_US.UTF-8" LC_ADDRESS="en_US.UTF-8" LC_TELEPHONE="en_US.UTF-8" LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= 这是什么时候cut不起作用 echo 哈哈 | cut -c 2- ��哈 正确的输出应该是 哈 如果cut -c使用多字节字符。
16 unicode  coreutils  cut 

4
查找用于渲染代码点的最佳字体
如何找到合适的字体来呈现unicode代码点? gnome-terminal发现可以使用Symbola之类的字体而不是我的终端字体或方格代码后备(????)来呈现诸如«🉃⼼😻🕲🝤»之类的字符。怎么样 ?
16 fonts  unicode 

3
不能在UTF-8中使用`cut -c`(`--characters`)吗?
该命令cut具有一个-c处理字符的选项,而不是带有选项的字节-b。但这似乎在en_US.UTF-8区域设置中不起作用: 第二个字节给出第二个ASCII字符(在UTF-8中编码相同): $ printf 'ABC' | cut -b 2 B 但不会在UTF-8语言环境中给出三个希腊非ASCII字符中的第二个: $ printf 'αβγ' | cut -b 2 � 没关系-这是第二个字节。 因此,我们改为看第二个字符: $ printf 'αβγ' | cut -c 2 � 看起来坏了。 通过一些实验,结果表明范围3-4显示了第二个字符: $ printf 'αβγ' | cut -c 3-4 β 但这与字节3到4相同: $ printf 'αβγ' | cut -b 3-4 β 因此,对于UTF-8,-c最多不会超过-b。 我希望语言环境设置不适用于UTF-8,但是相比之下,它wc可以按预期工作; …

5
获取字符串显示宽度
从外壳脚本获取一串字符的显示宽度(至少在一个终端上(至少一个以正确的宽度显示当前语言环境中的字符的显示终端))的最接近可移植的方式。 我主要对非控制字符的宽度感兴趣,但是也欢迎考虑诸如退格键,回车符,水平制表符之类的控制字符的解决方案。 换句话说,我正在寻找围绕POSIX函数的Shell API wcswidth()。 该命令应返回: $ that-command 'unix' # 4 fullwidth characters 8 $ that-command 'Stéphane' # 9 characters, one of which zero-width 8 $ that-command 'もで 諤奯ゞ' # 5 double-width Japanese characters and a space 11 人们可以使用ksh93的printf '%<n>Ls',考虑到用于填充字符宽度<n>列,或col命令(例如printf '++%s\b\b--\n' <character> | col -b),试图推导出,有一个文本:: CharWidth perl模块至少,但是否有更直接的或便携式的方法。 这或多或少是关于另一个问题的后续问题,该问题是关于在屏幕右侧显示文本,在显示文本之前您需要具有该信息。

2
UTF 8文件名?
在基于UNIX的操作系统中,是否允许utf6文件名?如果是这样,我需要做一些特殊的事情来将文件写入磁盘。 让我解释一下我希望做什么。我正在编写一个应用程序,该应用程序将通过ftp将文件传输到远程系统,但文件名是通过某些可能位于utf8中的元数据集动态设置的。我想知道是否需要做一些操作以将文件写入Unix / Linux中的磁盘。 另外,作为后续行动,是否有人知道将ut​​f 8文件名上传到不支持utf8的系统会发生什么情况?

2
grep:查找包含日语汉字的所有行
在一个巨大的UTF-8文本文件中,我想显示所有包含日语汉字的行。 这是什么grep(或其他)表达? 如果我没有记错的话,kanjis是之间的字符\u4e00和\u4dbf。 我不需要显示kanas,但是也显示它们并不是一个大问题。
14 grep  unicode 


2
iconv非法输入序列-为什么?
尝试将文本文件转换为等效的ASCII文件时,出现错误消息that iconv: illegal input sequence at position。 我使用的命令是 iconv -f UTF-8 -t ascii//TRANSLIT file 令人反感的角色是æ。 文本文件本身位于此处。 为什么说非法顺序?输入的字符是正确的UTF-8字符(U + 00E6)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.