Answers:
一种可能性是使用您喜欢的文本编辑器并简单地替换它们。
另一种方法是编写一个使用的脚本sed
。..但是我担心那只能是* NIX-Systems。
我更深入地回答了类似的问题- 从PDF复制或打印文档时,为什么`fi`文本会被剪切?
如果您有从损坏的单词到原始单词的映射,则可以替换复制的文本中的“损坏的”单词。我编写了一个脚本,通过从单词中删除连字并检查生成的单词是否唯一来生成此映射。对于我的英语单词词典,99.5%的所有可能破的话是可更换的,并且92.3%包含一个连字序列的话(ff
,fi
,fl
,ffi
,或ffl
)可以恢复。这两个百分数之间的差是由于这样的数量大得惊人的是通过去除来自其他合法字韧带创建合法字词(例如butterfly --> buttery
,fluffs --> us
和misfits --> mists
)。
这是CSV保证可替换的“残破”字词(以及它们过去的字词):http : //www.filedropper.com/brokenligaturewordfixes