使用非标准字符编码搜索PDF
当您复制文本时,某些PDF文件会产生垃圾(“ mojibake ”)(即使它们呈现为OK)。这样就无法搜索它们(无论您搜索的是什么都不匹配的垃圾)。 有人有简单的解决方法吗? 例子: TEAC TV手册EU2816STF(在Windows和Mac上均在Adobe Reader中产生上述问题,但在Mac上的Preview中工作正常) Leadtek Winfast PVR2手册(FTP链接;在Mac上的Preview中也有问题) Swann电视调谐器卡手册(FTP链接;在Mac上的“预览”中也有问题) Phonedisc许可协议(来自现已废止的DTMS) 麦格理IFP季度基金回顾 BAN-TACS小型企业手册(存档版本) 2004年复活节复活传单(也来自档案馆) 我正在使用Windows的Adobe Reader(最新版本)-也许使用其他查看器可能会有所帮助?我正在寻找Windows的免费解决方案。开源会更好。 编辑:“多价提取文本”工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改于2006年1月) 文本可能没有Unicode映射。PDF Type 3字体通常没有,并且TeX DVI的字符没有Unicode等效项。 Unicode编码可能有问题。Open Office将某些字符映射为相同的Unicode,从而导致外观字母掉落并加倍。 我猜在这些情况下,最终的解决方案是对字体中的每个字形进行OCR运算,以确定其真正的字符。请注意,这比OCR处理嘈杂的扫描文档要容易,因为可以使用字形的确切形状(因为它是“矢量”图像,所以分辨率无限大)。