Word不会按预期转换非Unicode字符


2

对于MS Word(在Windows中)如何处理非unicode字符,我们的用户遇到了一个非常令人沮丧的问题。使用Windows XP SP3在Word 2007和Word 2010 Beta中都确认了此问题; 我怀疑它在2003年的工作方式相同。

问题:

  1. 用户使用非unicode字体创建文档,输入字符以表示科学记数法。例如,他输入Mu(μ)。注意:我粘贴在符合unicode标准的Mu中以供参考。
  2. 用户打开他的文档并尝试将表示Mu的非unicode字符复制/粘贴到Web浏览器中以进入我们的系统。它作为一个无法识别的角色粘贴。这是预料之中的。
  3. 用户打开他的文档,选择非unicode字符并将其字体调整为“Arial Unicode MS”,保存文档。他关闭/重新打开文件以获得良好的衡量标准。重新打开后,他会复制应该是unicode Mu并将其粘贴到Web浏览器中。它仍然表现为一个无法识别的角色。
  4. 用户创建一个新文档,将字体设置为“Arial Unciode MS”并创建一个Mu。他将此Mu复制到Web浏览器中,并按预期粘贴在Unicode中。

结论:

当选择unicode字体时,Word实际上不会将非unicode字符转换为unicode字符。相反,它是出于显示原因采取最佳猜测,但没有进行实际转换。

我该如何克服这个问题?

  • 我可以更改Word中的某些设置以强制转换吗?优选的。
  • 是否有一个“更干净”的应用程序或Word宏将执行此操作?
  • 其他方案?

补充说明:

  • 使用unicode重新键入受影响的文档不是一种选择
  • 在使用最新版本的Word的Mac OS X中,这不是问题。例如(3)中的示例情况导致将unicode Mu粘贴到浏览器中。

请帮忙!


StackOverflow是一个与编程相关的问题的论坛。请尝试使用SuperUser.com。
Borealid 2010年

1
需要注意的是,您不需要在那里创建新问题。如果票数足够,这个问题迟早会被提出。请耐心等待。

什么是非unicode字符?
Philipp于2010年

@Philipp:这通常是外行人对ISO-8859-X范围之外的字符(或者底层平台使用的默认编码,例如Windows上的CP-1252或Mac OS上的Roman)的术语。非常矛盾的术语确实因为Unicode实际上涵盖了人类语言世界所知道的每个角色;)

1
剪切和粘贴问题可能与编程有关,即使这个特定问题不是。将“我的程序”替换为“MS Word”,主题并没有真正改变。
Mark Ransom 2010年

Answers:


2

尝试使用Paste Special; 应该有一个Unicode文本选项。

请注意,如果源文档是使用Symbol字体创建的,这将无济于事。Windows并不真正知道该字符与特定的Unicode字符有关,符号字体是在Unicode之前创建的,作为满足需求的一种方式,两者不可互换。


1

这是一个漫长的过程,但我通常会将这些文件转换为图像,然后通过任何OCR软件处理这些图像。这有帮助。但是,我自己在寻找更好的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.