Word不会按预期转换非Unicode字符

对于MS Word（在Windows中）如何处理非unicode字符，我们的用户遇到了一个非常令人沮丧的问题。使用Windows XP SP3在Word 2007和Word 2010 Beta中都确认了此问题; 我怀疑它在2003年的工作方式相同。

问题：

用户使用非unicode字体创建文档，输入字符以表示科学记数法。例如，他输入Mu（μ）。注意：我粘贴在符合unicode标准的Mu中以供参考。
用户打开他的文档并尝试将表示Mu的非unicode字符复制/粘贴到Web浏览器中以进入我们的系统。它作为一个无法识别的角色粘贴。这是预料之中的。
用户打开他的文档，选择非unicode字符并将其字体调整为“Arial Unicode MS”，保存文档。他关闭/重新打开文件以获得良好的衡量标准。重新打开后，他会复制应该是unicode Mu并将其粘贴到Web浏览器中。它仍然表现为一个无法识别的角色。
用户创建一个新文档，将字体设置为“Arial Unciode MS”并创建一个Mu。他将此Mu复制到Web浏览器中，并按预期粘贴在Unicode中。

结论：

当选择unicode字体时，Word实际上不会将非unicode字符转换为unicode字符。相反，它是出于显示原因采取最佳猜测，但没有进行实际转换。

我该如何克服这个问题？

补充说明：

请帮忙！

microsoft-word unicode

— Hello71
source

StackOverflow是一个与编程相关的问题的论坛。请尝试使用SuperUser.com。

— Borealid 2010年

需要注意的是，您不需要在那里创建新问题。如果票数足够，这个问题迟早会被提出。请耐心等待。

什么是非unicode字符？

— Philipp于2010年

@Philipp：这通常是外行人对ISO-8859-X范围之外的字符（或者底层平台使用的默认编码，例如Windows上的CP-1252或Mac OS上的Roman）的术语。非常矛盾的术语确实因为Unicode实际上涵盖了人类语言世界所知道的每个角色;）

剪切和粘贴问题可能与编程有关，即使这个特定问题不是。将“我的程序”替换为“MS Word”，主题并没有真正改变。

— Mark Ransom 2010年

尝试使用Paste Special; 应该有一个Unicode文本选项。

请注意，如果源文档是使用Symbol字体创建的，这将无济于事。Windows并不真正知道该字符与特定的Unicode字符有关，符号字体是在Unicode之前创建的，作为满足需求的一种方式，两者不可互换。

— 马克赎金
source

这是一个漫长的过程，但我通常会将这些文件转换为图像，然后通过任何OCR软件处理这些图像。这有帮助。但是，我自己在寻找更好的选择。

— FarhanN
source