如何在Windows命令行中使用Unicode字符?


316

我们在Team Foundation Server(TFS)中有一个项目,其中包含非英语字符(š)。当尝试编写一些与构建相关的东西的脚本时,我们偶然发现了一个问题-我们无法将š字母传递给命令行工具。命令提示符或其他原因将其弄乱了,并且tf.exe实用程序找不到指定的项目。

我已经尝试过.bat文件的不同格式(ANSI,带有和不带有BOM的 UTF-8 )以及使用JavaScript编写脚本(固有地是Unicode)的脚本-但没有运气。如何执行程序并将其传递给Unicode命令行?


1
@JohannesDewender-复制粘贴出错了吗?
Vilx-

2
Python 3.6:“ Windows上的默认控制台接受该版本的所有Unicode字符”(嗯,大多数对我来说),但是您需要配置控制台:右键单击Windows顶部(cmd或python IDLE的顶部) ),在默认/字体中选择“ Lucida控制台”。
JinSnow



2
@LưuVĩnhPhúc-不,这是关于传递unicode命令行参数,而不是在控制台中显示文本。控制台可能根本不参与。
Vilx-

Answers:


68

我的背景:多年来,我在控制台中使用Unicode输入/输出(并且每天都要做很多工作。此外,我还为此任务开发了支持工具)。就您所了解的以下事实/限制而言,几乎没有问题:

  • CMD与“控制台”无关。 CMD.exe是准备在控制台中“工作”的程序之一(“控制台应用程序”)。
  • AFAIK,CMD具有对Unicode的完美支持;您可以在任何代码页处于活动状态时输入/输出所有Unicode字符。
  • Windows的控制台对Unicode有很多支持-但它并不完美(仅“足够好”;请参见下文)。
  • chcp 65001是非常危险的 除非专门设计一个程序来解决Windows API中的缺陷(或使用具有这些解决方法的C运行时库),否则该程序将无法可靠地工作。 Win8可以解决其中½个问题cp65001,但其余问题仍然适用于Win10
  • 我在工作cp1252。正如我已经说过的:要在控制台中输入/输出Unicode,不需要设置codepage

细节

  • 要将Unicode读/写到控制台,应用程序(或其C运行时库)应足够聪明以使用File-I/OAPI,而不是Console-I/OAPI。(例如,请参见Python如何做到的。)
  • 同样,要读取Unicode命令行参数,应用程序(或其C运行时库)应足够聪明以使用相应的API。
  • 控制台字体渲染仅支持BMP中的Unicode字符(换句话说,如下U+10000)。仅支持简单的文本呈现(因此,只要使用预设的形式,欧洲语言(和某些东亚语言)应该可以正常工作)。[ 这里对东亚和U + 0000,U + 0001,U + 30FB字符有较小的罚款。]

实际考虑

  • Window 的默认设置不是很有帮助。为了获得最佳体验,应该调整3种配置:

    • 输出:全面的控制台字体。为了获得最佳结果,我建议使用builds。(安装说明位于此处,并且在此页面的其他答案中也列出了。)
    • 输入:功能强大的键盘布局。为了获得最佳效果,我建议使用布局
    • 输入:允许Unicode的十六进制输入
  • 带有“粘贴”到控制台应用程序中的另一个陷阱(非常技术):

    • HEX输入提供上的字符KeyUpAlt; 所有其他传递角色的方式在发生KeyDown; 如此之多的应用程序还没有准备好在上看到一个字符KeyUp。(仅适用于使用Console-I/OAPI的应用程序。)
    • 结论:许多应用程序不会对HEX输入事件做出反应。
    • 此外,“粘贴”字符会发生什么情况取决于当前的键盘布局:如果可以在不使用前缀键的情况下键入字符(但可以使用任意复杂的修饰符组合,如所述Ctrl-Alt-AltGr-Kana-Shift-Gray*),则可以在模拟的按键上进行输入。这是任何应用程序所期望的-因此,粘贴仅包含此类字符的任何内容都可以。
    • 但是,“其他”字符由 模拟十六进制输入

    结论:除非您的键盘布局支持输入许多不带前缀键的字符,否则某些错误的应用程序可能会在您Paste通过控制台的UI时跳过字符:Alt-Space E P。(就是为什么我建议使用键盘布局的原因!)

还应该记住,Windows的“替代的'功能更强大的'控制台” 根本不是控制台。它们不支持Console-I/OAPI,因此依赖这些API起作用的程序将无法运行。(不过,仅使用“控制台文件句柄的File-I / O API”的程序可以正常工作。)

这种非控制台的一个示例是MicroSoft的一部分Powershell。我不用这个; 实验,按一下并释放WinKey,然后输入powershell


(在另一方面,也有诸如程序ConEmuANSICON尝试做更多的事情:它们“尝试”拦截Console-I/OAPI以使“真正的控制台应用程序”也能工作。这肯定适用于玩具示例程序;在现实生活中,这可能或可能无法解决您的特定问题。进行实验。)

摘要

  • 设置字体,键盘布局(以及可选的允许十六进制输入)。

  • 仅使用通过Console-I/OAPI并接受Unicode命令行参数的程序。例如,任何cygwin编译程序都可以。正如我已经说过的,CMD也可以。

UPD:最初,由于中的bug cp65001,我混合使用了内核和CRTL层(UPD²:和Windows用户模式API!)。 另外: Win8修复了此错误的一半;我澄清了有关“更好的控制台”应用程序的部分,并添加了有关Python如何实现的参考。


好吧,对于彻底的事情,您应该被接受!太棒了!
Vilx-

5
我是C ++的新手,仔细阅读后无法理解此答案。有人可以帮我解决这个问题还是做个简单的解释?
瑞克(Rick)

@Bachi感谢Bachi,我发现键盘布局的v73(如上所述)缺少一些支持文件。现在修复!(从我的.log文件来看,这是zip -ru[?!]中的间歇性错误。不知道如何调试它–或将来避免使用…)
Ilya Zakharevich

@Rick:对!我在Python中添加了一个变通办法的链接(但现在无法找到该补丁的直接链接…)。
伊利亚·扎克哈列维奇

@IlyaZakharevich:D谢谢。但是我以某种方式放弃了在Windows上使用unicode。我稍后将使用Linux。
瑞克(Rick)

387

尝试:

chcp 65001

它将代码页更改为UTF-8。另外,您需要使用Lucida控制台字体。


18
您知道是否有办法将其设置为默认值吗?
AnnanFay 2011年

82
请注意,Windows的代码页65001支持中存在严重的实现错误,这些错误会破坏许多依赖C标准库IO方法的应用程序,因此这非常脆弱。(批处理文件也只能在65001中停止工作。)不幸的是,UTF-8是Windows中的二等公民。
bobince 2011年

7
@bobince Windows代码页65001支持中是否包含错误示例?我很好奇,因为我从来没有遇到过,并且谷歌搜索也没有发现任何东西。(当然,批处理文件确实会停止工作,但UTF-8几乎不是二等公民……)
Roman Starkov 2012年

17
@romkyns:我的理解是,返回字节数的调用(例如fread / fwrite / etc)实际上返回了字符数。这会导致各种各样的症状,例如输入阅读不完整,陷入混乱,批处理文件损坏等。一些背景。用于CJK“多字节”语言环境的默认代码页具有内置的特殊处理程序来解决此问题,但65001不支持 - 不支持
bobince

7
但是,有趣的问题是-该错误是因为它应该报告字节而是报告字符-还是因为使用它的应用程序错误地假定了byte = characters?换句话说,是API失败还是API使用失败?
基本

36

我遇到了同样的问题(我来自捷克共和国)。我安装了英文版Windows,并且必须使用共享驱动器上的文件。文件的路径包括捷克专用字符。

适用于我的解决方案是:

在批处理文件中,更改字符集页面

我的批处理文件:

chcp 1250
copy "O:\VEŘEJNÉ\ŽŽŽŽŽŽ\Ž.xls" c:\temp

批处理文件必须保存在CP 1250中。

请注意,控制台不会正确显示字符,但会理解它们。


1
干杯! 我需要这样做,以便可以在批处理文件中输入版权字符。
Lea Hayes

在几乎与您相同的情况下,这对我也非常有效。相反,我的路径包含爱尔兰盖尔语字符,即áéíó,和ú
Seany84

@vanna解决了我的“网络路径上的土耳其语字符和路径中的空格”。你很棒。
caglaror 2014年


2
您可能只需要使用其他字体也可以正确显示字符,Lucida Console为我工作。
VlastimilOvčáčík16年

29

检查非Unicode程序的语言。如果您在Windows控制台中遇到俄语问题,则应在此处设置俄语:

更改非Unicode程序的语言


6
这不会在中启用对Unicode的支持cmd,只会将默认代码页cp866(仍为8位字符集)切换到该代码页。它甚至使用cp866而不是cp1251添加自己的麻烦。
ivan_pozdeev

1
另请参阅以下我的回答,以获取更新的Windows 10版本中的新选项
zvi

14

更改Windows控制台的默认“代码页”是非常困难的。当您在网络上搜索时,会发现不同的建议,但是其中一些建议可能会完全破坏Windows,即PC无法再启动。

最安全的解决方案是:转到您的注册表项HKEY_CURRENT_USER\Software\Microsoft\Command Processor并添加String value Autorun= chcp 65001

或者,您可以将此小批处理脚本用于最常见的代码页。

@ECHO off

SET ROOT_KEY="HKEY_CURRENT_USER"


FOR /f "skip=2 tokens=3" %%i in ('reg query HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage /v OEMCP') do set OEMCP=%%i

ECHO System default values:

ECHO.
ECHO ...............................................
ECHO Select Codepage 
ECHO ...............................................
ECHO.
ECHO 1 - CP1252
ECHO 2 - UTF-8
ECHO 3 - CP850
ECHO 4 - ISO-8859-1
ECHO 5 - ISO-8859-15
ECHO 6 - US-ASCII
ECHO.
ECHO 9 - Reset to System Default (CP%OEMCP%)
ECHO 0 - EXIT
ECHO.


SET /P  CP="Select a Codepage: "

if %CP%==1 (
    echo Set default Codepage to CP1252
    reg add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 1252>nul" /f
) else if %CP%==2 (
    echo Set default Codepage to UTF-8
    reg add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 65001>nul" /f
) else if %CP%==3 (
    echo Set default Codepage to CP850
    reg add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 850>nul" /f
) else if %CP%==4 (
    echo Set default Codepage to ISO-8859-1
    add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 28591>nul" /f
) else if %CP%==5 (
    echo Set default Codepage to ISO-8859-15
    add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 28605>nul" /f
) else if %CP%==6 (
    echo Set default Codepage to ASCII
    add "%ROOT_KEY%\Software\Microsoft\Command Processor" /v Autorun /t REG_SZ /d "@chcp 20127>nul" /f
) else if %CP%==9 (
    echo Reset Codepage to System Default
    reg delete "%ROOT_KEY%\Software\Microsoft\Command Processor" /v AutoRun /f
) else if %CP%==0 (
    echo Bye
) else (
    echo Invalid choice
    pause
)

使用@chcp 65001>nul而不是chcp 65001抑制输出“激活代码页:65001”的输出,您将在每次启动新的命令行窗口时获得。

您可以从代码页标识符获得的所有可用号码的完整列表

注意,这些设置仅适用于当前用户。如果您想将其设置为所有用户,更换线路SET ROOT_KEY="HKEY_CURRENT_USER"SET ROOT_KEY="HKEY_LOCAL_MACHINE"


好主意和可用示例!

13

实际上,诀窍在于命令提示符实际上可以理解这些非英语字符,只是无法正确显示它们。

当我在命令提示符下输入包含一些非英语字符的路径时,它显示为“ ???????????????????”。当您提交命令时(在我的案例中为cd“ ??????????????????”),一切按预期进行。


2
这可能有点危险,因为您可能会遇到命名冲突。例如,如果您有两个文件都呈现为“ ???”,然后输入“ cd ???” 它不知道使用哪个(或更糟糕的是选择一个任意的)。
约翰

26
您无需输入???,您可以输入实名,而实名只会显示为???。可以将其视为密码输入框。输入的任何内容均显示为***,但提交的内容为原始文本。
用户

对于直接在命令提示符下运行的命令,确实可以使用。但是,在运行.cmd批处理文件时,我仍然需要放在chcp 65001批处理文件的顶部。
wisbucky

在您的情况下,这是一种字体问题……内容在那里,只是没有合适的字体来显示它。但是OP是不同的。
WesternGun

11

在Windows 10 x64计算机上,我通过以下方式使命令提示符显示非英文字符:

打开提升的命令提示符(以管理员身份运行CMD.EXE)。通过以下方法在注册表中查询可用的TrueType字体:

    REG query "HKLM\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Console\TrueTypeFont"

您将看到类似以下的输出:

    0    REG_SZ    Lucida Console
    00    REG_SZ    Consolas
    936    REG_SZ    *新宋体
    932    REG_SZ    *MS ゴシック

现在,我们需要添加一种TrueType字体来支持所需的字符,例如Courier New。我们通过在字符串名称上添加零来完成此操作,因此在这种情况下,下一个将是“ 000”:

    REG ADD "HKLM\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Console\TrueTypeFont" /v 000 /t REG_SZ /d "Courier New"

现在,我们实现UTF-8支持:

    REG ADD HKCU\Console /v CodePage /t REG_DWORD /d 65001 /f

将默认字体设置为“ Courier New”:

    REG ADD HKCU\Console /v FaceName /t REG_SZ /d "Courier New" /f

将字体大小设置为20:

    REG ADD HKCU\Console /v FontSize /t REG_DWORD /d 20 /f

如果愿意,请启用快速编辑:

    REG ADD HKCU\Console /v QuickEdit /t REG_DWORD /d 1 /f

3
通常,使用代码页65001只能在带有Creators更新的Windows 10中没有错误的情况下工作。在Windows 7中,它将同时具有输出和输入错误。在Windows 8和Windows 10的早期版本中,它仅具有输入错误,该输入错误将输入限制为7位ASCII。
Eryk Sun'9

6

由于我还没有看到Python 2.7的完整答案,因此我将概述两个重要步骤和一个非常有用的可选步骤。

  1. 您需要具有Unicode支持的字体。Windows随附有Lucida Console,可通过右键单击命令提示符的标题栏并单击Defaults选项来选择它。这也可以访问颜色。请注意,您也可以通过选择更改以某些方式(例如,在此处打开,Visual Studio)调用的命令窗口的设置Properties
  2. 您需要将代码页设置为cp65001,这似乎是Microsoft尝试向命令提示符提供UTF-7和UTF-8支持。通过chcp 65001在命令提示符下运行执行此操作。一旦设置,它将保持这种方式,直到关闭窗口。每次启动cmd.exe时都需要重做一次。

有关更永久的解决方案,请参阅超级用户上的此答案。简而言之,REG_SZ使用regedit 创建一个(String)条目,HKEY_LOCAL_MACHINE\Software\Microsoft\Command Processor并将其命名为AutoRun。将其值更改为chcp 65001。如果您不想看到命令的输出消息,请使用@chcp 65001>nul改用。

某些程序无法与该编码进行交互,MinGW是一个值得注意的程序,在编译时会出现无意义的错误消息而失败。但是,这非常有效,并且不会引起大多数程序的错误。


5

我发现此方法在Windows 10的新版本中很有用:

启用此功能:“测试版:使用Unicode UTF-8进行全球语言支持”

控制面板->区域设置->管理标签->更改系统区域设置...

区域设定


如何通过使用Powershell或cmd实现此目的?
科里

我试图在控制台中显示中文字符,并且这样做在Windows 10 64位(安装为土耳其语,后来更改为英文)中不起作用。接下来,我将尝试安装中文,看看是否可以使用。
akinuri

4

一个非常简单的选择是安装Windows bash shell(例如MinGW)并使用:

在此处输入图片说明

您需要使用Unix命令行功能,因此需要进行一些学习,但是您会喜欢它的强大功能,可以将控制台字符集设置为UTF-8。

在此处输入图片说明

当然,您还可以获得所有常用的* nix好东西,例如grep,find,less等。


在这种(旧)情况下,问题在于脚本而不是控制台。使用bash脚本可以解决这个问题吗?
Vilx-

是的,的确,可以将它们的bash脚本标记为UTF-8,并且比Windows批处理文件具有更多的功能-我知道这是一个旧案例,但是认为该选项值得标记,以备将来参考,因为MS似乎没有在Unicode方面变得更好。
史蒂夫·巴恩斯


输出UTF-8编码的字符就可以了。但是输入仍然由系统代码页编码。
瑞克(Rick)

1
补充一下,如果您使用Git,Windows用户可能已经具有bash shell:只需打开Git> Git Bash窗口即可。
Skomisa

3

对于类似的问题,(我的问题是在命令提示符下显示来自MySQL的UTF-8字符),

我这样解决了:

  1. 我将命令提示符的字体更改为Lucida Console。(此步骤必须与您的情况无关。它仅与您在屏幕上看到的内容有关,而与角色的真实情况无关)。

  2. 我将代码页更改为Windows-1253。您可以通过“ chcp 1253”在命令提示符下执行此操作。它适用于我想看UTF-8的情况。


7
Windws-1253不是Unicode代码页。这是一个标准的256个字符的代码页。显然,您只使用了可以在该代码页中显示的字符,但它不是通用的。
Vilx- 2012年

3

这个问题很烦人。我的文件名和文件内容通常带有中文字符。请注意,我正在使用Windows 10,这是我的解决方案:

要显示文件名,例如dirls是否在Windows 10上安装了Ubuntu bash

  1. 设置区域以支持非UTF 8字符。

  2. 此后,控制台的字体将更改为该语言环境的字体,并且还更改了控制台的编码。

完成前面的步骤后,为了使用命令行工具显示UTF-8文件的文件内容

  1. 将页面更改为utf-8 chcp 65001
  2. 更改为支持utf-8的字体,例如Lucida Console
  3. 使用type命令来查看文件内容,或者cat如果您在Windows 10上安装了Ubuntu bash
  4. 请注意,在将控制台的编码设置为utf-8之后,我无法使用中文输入法在cmd中键入中文字符。

最懒惰的解决方案:只需使用控制台仿真器,例如http://cmder.net/


这不适合我。point命令输出中的汉字仍然乱码。
这样的Yu

@SiqingYu我放弃了疯狂的设置。只需使用blog.miniasp.com/post/2015/09/27/Useful-tool-Cmder.aspx
code4j

我以前使用过Cmder,但是它不能替代Visual Studio使用的开发人员控制台。
这样的Yu

@SiqingYu您的意思是C#交互式Powershell吗?
code4j

不是交互式Power Shell,而是Visual C ++也使用的开发人员控制台。它是Win32控制台应用程序项目中的默认调试控制台。
这样的Yu

2

我在这里看到了几个答案,但它们似乎并未解决问题-用户希望从命令行获取Unicode输入。

Windows使用UTF-16编码两个字节的字符串,因此您需要从操作系统中的程序中获取它们。有两种方法可以做到这一点 -

1)Microsoft有一个扩展,允许main使用宽字符数组:int wmain(int argc,wchar_t * argv []); https://msdn.microsoft.com/zh-CN/library/6wd819wh.aspx

2)调用Windows api以获取命令行的unicode版本wchar_t win_argv =(wchar_t)CommandLineToArgvW(GetCommandLineW(),&nargs); https://docs.microsoft.com/zh-cn/windows/desktop/api/shellapi/nf-shellapi-commandlinetoargvw

阅读此信息:http : //utf8everywhere.org 以获取详细信息,尤其是在您支持其他操作系统的情况下。


啊,不,对不起,您错过了这个问题。这是当我编写一个将接收 unicode字符的程序时。我的问题是关于 unicode字符发送到另一个程序(希望该程序支持接收它们,但是除反汇编外,我真的没有办法知道)。
Vilx-

2

从2019年6月开始,使用Windows 10,您将无需更改代码页。

请参见“ Windows终端简介 ”(来自Kayla Cinnamon)和Microsoft / Terminal
通过使用Consolas字体,将提供部分 Unicode支持。

Microsoft/Terminal第387期中所述

当前有87,887个表意文字使用Unicode。您还需要所有这些吗?
我们需要一个边界,超出该边界的字符应通过字体后备/字体链接/其他方式处理。

Consolas应该涵盖的内容:

  • 用作CLI中现代OSS程序使用的符号的字符。
  • 这些字符应遵循Consolas的设计和指标,并与现有Consolas字符正确对齐。

Consolas不应涵盖的内容:

  • 超出拉丁语,希腊语和西里尔字母的脚本的字符和标点符号,尤其是需要复杂形状的字符(如阿拉伯语)。
  • 这些字符应使用字体后备进行处理。

1

.bat文件的快速决定(如果您的计算机在DOS窗口中键入该文件时显示正确的路径/文件名):

  1. 复制con temp.txt [按Enter]
  2. 输入路径/文件名[按Enter]
  3. Ctrl-Z [按Enter]

这样,您将创建一个.txt文件-temp.txt。在记事本中打开它,复制文本(不要担心它看起来不可读)并将其粘贴到您的.bat文件中。执行在DOS窗口中以这种方式创建的.bat对mé(西里尔语,保加利亚语)有效。


1

一个更好的清洁方法:只需安装可用的免费Microsoft日语语言包。(其他东方语言包也可以,但是我已经测试了日语。)

这为您提供了带有较大字形集的字体,使其成为默认行为,并更改了各种Windows工具(如cmd,写字板等)。


1

将代码页更改为1252对我有用。对我来说,问题是符号double doller§正在Windows Server 2008上由DOS转换为另一个符号。

我在BCP语句^§中使用过CHCP 1252和瓶盖。


谢谢!我不知道为什么人们对此表示反对,对于某些人来说,它是一种有效的选择。.此代码页1252确实在Windows Server 2012上也解决了该问题,在Windows Server 2012上,相同的CP 65001代码对我不起作用。我想这取决于编辑批处理脚本的代码页或操作系统默认设置。在这种情况下,用记事本德语MUI计算机上创建了连接美国基地OS ..
托尼·沃尔

0

通过在批处理文件中使用短名称(8点3)来引用它们,我遇到了删除Unicode命名文件的类似问题。

可以通过查看短名称dir /x。显然,这仅适用于已知的Unicode文件名。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.