Unix & Linux unicode

3

我只是碰到某人终端的屏幕截图：是否有可以在Bash提示中使用的所有字符的列表，或者有人可以为我获取星号和向右箭头的字符？

81 bash prompt unicode

6

我有一个带有BOM的UTF-8编码文件，并且想要删除BOM。是否有任何Linux命令行工具可从文件中删除BOM？ $ file test.xml test.xml: XML 1.0 document, UTF-8 Unicode (with BOM) text, with very long lines

63 command-line files unicode

2

如何将VIM的默认编码设置为UTF-8？

我想为一个提供翻译后字符串的开源项目做出贡献。他们的要求之一是，提供者必须使用UTF-8作为PO文件的编码。我在Linux上使用VIM 7.3。如何确定VIM的编码设置为UTF-8，以便可以正确方式编辑和保存.po文件？

62 vim character-encoding unicode

2

为什么printf“缩小”变音符号？

如果我执行以下简单脚本： #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" 它打印： Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz 也就是说，带有变音符号的文字（例如ü）会被每个变音符号“缩小”一个字符。当然，我在某个地方有一些错误的设置，但是我无法弄清楚可能是哪个。如果文件的编码为UTF-8，则会发生这种情况。如果我将其编码更改为latin-1，对齐方式是正确的，但是变音符号却被错误地呈现： Fr�chte und Gem�se foo Milchprodukte bar 12345678901234567890 baz

54 bash unicode printf

6

过滤无效的utf8

我有一个未知或混合编码的文本文件。我想查看包含无效UTF-8字节序列的行（通过将文本文件传送到某些程序中）。同样，我想过滤掉有效的UTF-8行。换句话说，我正在寻找。grep [notutf8] 理想的解决方案是可移植的，简短的并且可以推广到其他编码，但是如果您觉得最好的方法是烘焙UTF-8的定义，请继续。

50 command-line text-processing character-encoding unicode

2

哪些字体适合Unicode字形

因此，我在stackoverflow上查看了这个答案，并意识到我的字体并没有涵盖整个utf-8 unicode频谱（因为我得到了很多正方形）。有谁知道一种字体可以覆盖所有帖子？

38 fonts unicode

1

我们是否应该在bash / shell脚本中使用UTF-8字符（如⏰）？

如果使用bash以下命令启动，则这里的简单代码可以在我的机器上按预期工作： function ⏰(){ date } ⏰ 使用此工具的其他人可能会遇到问题，还是通用？我想知道，因为到目前为止，我从未在其他源代码中看到过类似的东西。编辑：有无限的可能性，例如，可以通过使用表情符号来快速区分功能角色。 💣表示可以修改或删除文件的内容，a表示正在进行的工作，📃表示交互式菜单... 我想我们应该为所有这些创建一个标准，但这似乎是一个有趣的想法。也许〜5个字符的随机行可以帮助我们了解代码的功能。（当然，我们需要学习如何阅读它们。）更多编辑：我正在试一试。现在，如果我在编辑器（Or cat myscript.sh|grep function）中折叠所有函数，它们将看起来像这样。（geany与此处相比，我的unicode在终端中看起来要好得多。） function ⬚_1(){ function ⬚⬚_2(){ function ⬚⬚⬚_📃_D(){ function ⬚⬚⬚⬚_📃_X(){ function ⬚⬚⬚⬚⬚_📃_Y(){ function ⬚⬚⬚⬚⬚⬚_❓_P(){ function ⬚⬚⬚⬚_📃_Z(){ function ⬚⬚⬚⬚⬚_❓_U(){ function ⬚⬚⬚⬚⬚_❓_O(){ 我使用一个奇怪的缩进⬚来展示功能之间的相互关系，并使用符号📃/❓来清楚地区分它们的作用。（当然，这些不是我的真实函数名称，我只是在最后加上一个随机字母，但是即使没有它们，我们也可以清楚地看到它们之间的关系。）

36 bash shell unicode

1

如何使tr意识到非ASCII字符？

我正在尝试从文件（UTF-8）中删除一些字符。我正在tr为此目的使用： tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 文件包含一些外来字符（例如“Латвийская”或“àé”）。tr似乎不了解它们：它将它们视为非Alpha并将其删除。我尝试过更改某些语言环境设置： LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=ru_RU.UTF-8 tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 不幸的是，这些都不起作用。如何tr理解Unicode？

36 linux text-processing unicode tr

6

sed是否有替代方法支持unicode？

例如： sed 's/\u0091//g' file1 现在，我要做的hexdump是获取十六进制数并输入sed如下： $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91 |...| 00000003 然后： $ sed 's/\xe9\xa6\x91//g' file1

33 sed unicode hexdump

5

更新了我的Arch Linux服务器，现在我得到了tmux：需要UTF-8语言环境（LC_CTYPE）但具有ANSI_X3.4-1968

我最近更新了Arch Linux服务器，在此过程中更新了tmux。tmux升级进行时，我一直在使用，后来使用它，但是所有过程都在同一SSH会话中进行。但是现在，每当我尝试发出任何tmux命令时，都会出现此错误： tmux: need UTF-8 locale (LC_CTYPE) but have ANSI_X3.4-1968 这是locale -a服务器上的输出： $ locale -a C POSIX 在我的机器上（Ubuntu 15.10）： $ locale -a C C.UTF-8 en_AG en_AG.utf8 en_AU.utf8 en_BW.utf8 en_CA.utf8 en_DK.utf8 en_GB.utf8 en_HK.utf8 en_IE.utf8 en_IN en_IN.utf8 en_NG en_NG.utf8 en_NZ.utf8 en_PH.utf8 en_SG.utf8 en_US.utf8 en_ZA.utf8 en_ZM en_ZM.utf8 en_ZW.utf8 POSIX 怎么回事，我该如何解决？

29 arch-linux tmux locale unicode

4

如何在grep中使用十六进制代码指定字符？

这个问题是从Stack Overflow 迁移过来的，因为可以在Unix＆Linux Stack Exchange上回答。迁移 8年前。我正在使用以下命令对十六进制代码0900（而不是अ）到097F（而不是व）的grep字符集范围进行grep。如何使用十六进制代码代替अ和व？ bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml 我得到以下输出： <w f="399651">और</w> <w f="264423">एक</w> <w f="213707">पर</w> …

27 shell grep character-encoding unicode

3

为什么排序说ɛ= e？

ɛ（“拉丁字母epsilon”）是某些非洲语言中使用的字母，通常代表英语“ bed”中的元音。在Unicode中，它的编码为U + 025B，与日常的非常不同e。但是，如果我sort以下内容： eb ed ɛa ɛc 似乎sort考虑ɛ和e等效： ɛa eb ɛc ed 这里发生了什么？而且是有办法让ɛ和e独特的sort荷兰国际集团的目的呢？

25 sort locale unicode

6

在bash中，如何将Unicode代码点[0-9A-F]转换为可打印字符？

我有一个Unicode代码点列表，但是我不知道将这些十六进制值转换为它们代表的实际字符的“简单”方法。我听说zsh has echo -e '\u0965'，但是我使用bash 4.1。有什么像zsh方法一样简单的bash吗？

23 bash unicode

6

在UNIX命令行上在Unicode规范化形式之间进行转换

在Unicode中，某些字符组合具有多个表示形式。例如，字符ä可以表示为 “ä”，即代码点U + 00E4（c3 a4采用UTF-8编码的两个字节），或者为 “ä”，即两个代码点U + 0061 U + 0308（61 cc 88UTF-8中为三个字节）。根据Unicode标准，这两种表示形式是等效的，但是以不同的“规范化形式”，请参阅UAX＃15：Unicode规范化形式。 Unix工具箱提供了各种文本转换工具，包括sed，tr，iconv，Perl。如何在命令行上快速轻松地进行NF转换？

22 command-line text-processing conversion unicode

8

如何键入“智能引号”（U + 201C，U + 201D）

就像这样：“（U + 201C）”（U + 201D）。

22 xorg keyboard special-characters unicode

Questions tagged «unicode»