Questions tagged «unicode»

Unicode是一种计算行业标准,用于对世界上大多数书写系统中表示的文本进行一致的编码,表示和处理。


6
如何从UTF-8文件中删除BOM?
我有一个带有BOM的UTF-8编码文件,并且想要删除BOM。是否有任何Linux命令行工具可从文件中删除BOM? $ file test.xml test.xml: XML 1.0 document, UTF-8 Unicode (with BOM) text, with very long lines

2
如何将VIM的默认编码设置为UTF-8?
我想为一个提供翻译后字符串的开源项目做出贡献。他们的要求之一是,提供者必须使用UTF-8作为PO文件的编码。 我在Linux上使用VIM 7.3。如何确定VIM的编码设置为UTF-8,以便可以正确方式编辑和保存.po文件?

2
为什么printf“缩小”变音符号?
如果我执行以下简单脚本: #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" 它打印: Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz 也就是说,带有变音符号的文字(例如ü)会被每个变音符号“缩小”一个字符。 当然,我在某个地方有一些错误的设置,但是我无法弄清楚可能是哪个。 如果文件的编码为UTF-8,则会发生这种情况。 如果我将其编码更改为latin-1,对齐方式是正确的,但是变音符号却被错误地呈现: Fr�chte und Gem�se foo Milchprodukte bar 12345678901234567890 baz
54 bash  unicode  printf 

6
过滤无效的utf8
我有一个未知或混合编码的文本文件。我想查看包含无效UTF-8字节序列的行(通过将文本文件传送到某些程序中)。同样,我想过滤掉有效的UTF-8行。换句话说,我正在寻找。grep [notutf8] 理想的解决方案是可移植的,简短的并且可以推广到其他编码,但是如果您觉得最好的方法是烘焙UTF-8的定义,请继续。

2
哪些字体适合Unicode字形
因此,我在stackoverflow上查看了这个答案,并意识到我的字体并没有涵盖整个utf-8 unicode频谱(因为我得到了很多正方形)。有谁知道一种字体可以覆盖所有帖子?
38 fonts  unicode 

1
我们是否应该在bash / shell脚本中使用UTF-8字符(如⏰)?
如果使用bash以下命令启动,则这里的简单代码可以在我的机器上按预期工作: function ⏰(){ date } ⏰ 使用此工具的其他人可能会遇到问题,还是通用? 我想知道,因为到目前为止,我从未在其他源代码中看到过类似的东西。 编辑:有无限的可能性,例如,可以通过使用表情符号来快速区分功能角色。 💣表示可以修改或删除文件的内容,a表示正在进行的工作,📃表示交互式菜单... 我想我们应该为所有这些创建一个标准,但这似乎是一个有趣的想法。 也许〜5个字符的随机行可以帮助我们了解代码的功能。(当然,我们需要学习如何阅读它们。) 更多编辑:我正在试一试。现在,如果我在编辑器(Or cat myscript.sh|grep function)中折叠所有函数,它们将看起来像这样。(geany与此处相比,我的unicode在终端中看起来要好得多。) function ⬚_1(){ function ⬚⬚_2(){ function ⬚⬚⬚_📃_D(){ function ⬚⬚⬚⬚_📃_X(){ function ⬚⬚⬚⬚⬚_📃_Y(){ function ⬚⬚⬚⬚⬚⬚_❓_P(){ function ⬚⬚⬚⬚_📃_Z(){ function ⬚⬚⬚⬚⬚_❓_U(){ function ⬚⬚⬚⬚⬚_❓_O(){ 我使用一个奇怪的缩进⬚来展示功能之间的相互关系,并使用符号📃/❓来清楚地区分它们的作用。(当然,这些不是我的真实函数名称,我只是在最后加上一个随机字母,但是即使没有它们,我们也可以清楚地看到它们之间的关系。)
36 bash  shell  unicode 

1
如何使tr意识到非ASCII字符?
我正在尝试从文件(UTF-8)中删除一些字符。我正在tr为此目的使用: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 文件包含一些外来字符(例如“Латвийская”或“àé”)。tr似乎不了解它们:它将它们视为非Alpha并将其删除。 我尝试过更改某些语言环境设置: LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=ru_RU.UTF-8 tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 不幸的是,这些都不起作用。 如何tr理解Unicode?

6
sed是否有替代方法支持unicode?
例如: sed 's/\u0091//g' file1 现在,我要做的hexdump是获取十六进制数并输入sed如下: $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91 |...| 00000003 然后: $ sed 's/\xe9\xa6\x91//g' file1
33 sed  unicode  hexdump 

5
更新了我的Arch Linux服务器,现在我得到了tmux:需要UTF-8语言环境(LC_CTYPE)但具有ANSI_X3.4-1968
我最近更新了Arch Linux服务器,在此过程中更新了tmux。tmux升级进行时,我一直在使用,后来使用它,但是所有过程都在同一SSH会话中进行。 但是现在,每当我尝试发出任何tmux命令时,都会出现此错误: tmux: need UTF-8 locale (LC_CTYPE) but have ANSI_X3.4-1968 这是locale -a服务器上的输出: $ locale -a C POSIX 在我的机器上(Ubuntu 15.10): $ locale -a C C.UTF-8 en_AG en_AG.utf8 en_AU.utf8 en_BW.utf8 en_CA.utf8 en_DK.utf8 en_GB.utf8 en_HK.utf8 en_IE.utf8 en_IN en_IN.utf8 en_NG en_NG.utf8 en_NZ.utf8 en_PH.utf8 en_SG.utf8 en_US.utf8 en_ZA.utf8 en_ZM en_ZM.utf8 en_ZW.utf8 POSIX 怎么回事,我该如何解决?

4
如何在grep中使用十六进制代码指定字符?
这个问题是从Stack Overflow 迁移过来的,因为可以在Unix&Linux Stack Exchange上回答。 迁移 8年前。 我正在使用以下命令对十六进制代码0900(而不是अ)到097F(而不是व)的grep字符集范围进行grep。如何使用十六进制代码代替अ和व? bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml 我得到以下输出: <w f="399651">और</w> <w f="264423">एक</w> <w f="213707">पर</w> …

3
为什么排序说ɛ= e?
ɛ(“拉丁字母epsilon”)是某些非洲语言中使用的字母,通常代表英语“ bed”中的元音。在Unicode中,它的编码为U + 025B,与日常的非常不同e。 但是,如果我sort以下内容: eb ed ɛa ɛc 似乎sort考虑ɛ和e等效: ɛa eb ɛc ed 这里发生了什么?而且是有办法让ɛ和e独特的sort荷兰国际集团的目的呢?
25 sort  locale  unicode 


6
在UNIX命令行上在Unicode规范化形式之间进行转换
在Unicode中,某些字符组合具有多个表示形式。 例如,字符ä可以表示为 “ä”,即代码点U + 00E4(c3 a4采用UTF-8编码的两个字节),或者为 “ä”,即两个代码点U + 0061 U + 0308(61 cc 88UTF-8中为三个字节)。 根据Unicode标准,这两种表示形式是等效的,但是以不同的“规范化形式”,请参阅UAX#15:Unicode规范化形式。 Unix工具箱提供了各种文本转换工具,包括sed,tr,iconv,Perl。如何在命令行上快速轻松地进行NF转换?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.