如何在Notepad ++中替换Unicode字符


3

我有一个.xlf文件,如下图所示:

在此输入图像描述

我想知道如何搜索和替换unicode字符“xE5”“æ” 我以为我可以搜索:^ 0145 = xE5并替换“æ”,这不起作用。

如果这不可能,我可以使用另一个文本编辑器(例如ultraedit)。

这是文件中的粘贴文本:

<?xml version="1.0" encoding="utf-8"?>
<xliff xmlns="urn:oasis:names:tc:xliff:document:1.2" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="1.2" xsi:schemaLocation="urn:oasis:names:tc:xliff:document:1.2 xliff-core-1.2-strict.xsd">
  <file xmlns:bind="http://bind.sorona.se" original="CTO12623_1_en-GB-da.xml" source-language="en" datatype="xml" date="2015-11-11T15:35:51Z" target-language="da" product-name="Anders_LP8504_151111" bind:file-id="78452" bind:file-hash="85075c54359fa47b087d6c67ec967f43">
    <header>
      <tool tool-name="Sorona TMS" tool-id="bind" tool-version="3.1.5" tool-company="Sorona Innovation" />
      <count-group name="word-count">
        <count count-type="total" unit="word">2743</count>
      </count-group>
    </header>
    <body>
      <trans-unit id="e1ca41ef868a74944745b8cd1dfa59e7" translate="yes" approved="no" restype="string" resname="p">
        <source>The trench compactor LP 8504 is a radio controlled trench compactor. It has a robust design and is suitable for compaction of medium to deep layers of cohesive and granular soils on limited areas such as trenches, construction back-fills and on roads. No other use is permitted.</source><seg-source><mrk mtype="seg" mid="1">The trench compactor LP 8504 is a radio controlled trench compactor. It has a robust design and is suitable for compaction of medium to deep layers of cohesive and granular soils on limited areas such as trenches, construction back-fills and on roads. No other use is permitted.</mrk></seg-source>
        <target state="translated"><mrk mtype="seg" mid="1">Vibrationstromlen LP 8504 er radiostyret. Den har et robust design og er beregnet til komprimering af middel til dybe lag af sammenh篧ende og granuleret jord p塢egr篳ede omr楥r s塳om gr𦴥r, anl稳opfyldninger og p塶eje. Den m塩kke anvendes til andre form欮</mrk></target>
      </trans-unit>
      <trans-unit id="3b3dbf229f5f1f06ab9427d689c9740b" translate="yes" approved="no" restype="string" resname="p">
        <source>The LP trench compactor must only be used in well-ventilated areas, as is the case for all combustion engine machines.</source><seg-source><mrk mtype="seg" mid="2">The LP trench compactor must only be used in well-ventilated areas, as is the case for all combustion engine machines.</mrk></seg-source>
        <target state="translated"><mrk mtype="seg" mid="2">LP vibrationstromlen m塬ige som alle andre maskiner med forbr篤ingsmotorer kun bruges i godt ventilerede omr楥r.</mrk></target>
      </trans-unit>
      <trans-unit id="3ceced74b90bcbc582c1857395a8abf1" translate="yes" approved="no" restype="string" resname="p">
        <source>The LP trench compactor must not be towed behind vehicles.</source><seg-source><mrk mtype="seg" mid="3">The LP trench compactor must not be towed behind vehicles.</mrk></seg-source>
        <target state="translated"><mrk mtype="seg" mid="3">LP vibrationstromlen m塩kke sl磥s efter biler.</mrk></target>
      </trans-unit>
      <trans-unit id="c1ff7c8ab3ea4123fc2d5fb6a105d98b" translate="yes" approved="no" restype="string" resname="p">
        <source>Handbrake</source><seg-source><mrk mtype="seg" mid="4">Handbrake</mrk></seg-source>
        <target state="translated"><mrk mtype="seg" mid="4">H毤bremse</mrk></target>
      </trans-unit>
    </body>
  </file>
</xliff>

我还在这里附上了xlf文件是一个链接:
这里是下载xlf的链接

有什么建议么?


编辑并添加我们可以复制和使用的文本示例。
DavidPostill

@DavidPostill我做了Post代码也附加了文件。所以你的选择最符合你的要求:)
XsiSec 2016年

Answers:


4

我想知道如何搜索和替换unicode字符xE5æ

请注意,æ实际上00E6不是Unicode 00E5

搜索和替换不是显示正确字符的正确方法。

<?xml version="1.0" encoding="utf-8"?>

以上说明编码是,utf-8但文件实际编码为ANSI

您需要将文件正确转换为UTF-8,如下所示:

  1. 打开Testfile.xlf

  2. 文件看起来像:

    在此输入图像描述

    Unicode显示不正确。

  3. 菜单> 编码 >选择ANSI编码

    在此输入图像描述

  4. 文件看起来像:

    在此输入图像描述

    Unicode正确显示。

  5. 选择所有文件内容(ctrl+ a

  6. 菜单> 编码 >选择转换为UTF-8

    在此输入图像描述

  7. 保存文件(ctrl+ s

  8. 关闭并重新打开。

  9. 文件现在可以正确编码为UTF-8,并且Unicode字符可以正确显示。


你怎么看到文件实际上是ANSI?

cygwin file实用程序显示了这一点(转换前后):

DavidPostill@Hal /f/test
$ file -i Testfile*.xlf
Testfile.xlf:          application/xml; charset=iso-8859-1
TestfileConverted.xlf: application/xml; charset=utf-8

完美答案!一个更好的回答非常感谢!
XsiSec 2016年

你怎么看到文件实际上是ANSI?我理解声明说:encoding-utf-8。
XsiSec 2016年

我使用了cygwin file实用程序。我已经更新了答案。
DavidPostill

答案已更新。滚动到最后。
DavidPostill

你救了我的一天!
Matteo Conta

0

如果要完全删除UTF-8 / unicode字符,请单击EncodingNPP并按顺序执行以下步骤:

  1. 选择UTF-8中的编码(如果它当前是ANSI)
  2. 选择转换为ANSI(也在编码下)
  3. 保存存档

当我这样做时,所有UTF-8 / unicode字符都会消失。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.